我正在研究一个我们想要分析网页内容的学校项目。然而,我们并不想处理导航条和评论等内容。如果我们在查看特定的网站,我们可以创建一个解析器来过滤那些专门针对该网站的无关内容,但我们希望能够在我们以前可能没有遇到的任意网站上工作。有没有任何工具来隔离网页的内容?
我觉得希望有点多,所以如果没有这样的东西存在,我不会感到惊讶,但是有谁知道可以在任意网站上做这种内容隔离的工具吗?我与同一网站上的其他人有过一些不同的运气,但它不完美,留下评论等。
我正在使用Java,但会欢迎任何可用于创意的语言的任何开源代码。
这看起来非常酷!我必须仔细研究它。 – Matt 2010-11-22 11:32:54