2010-04-25 156 views
1

我正在寻找信息提取库,我可以获得可能具有隐藏或不完整数据的半结构化信息。我想训练一些分类器根据结构提取内容。信息提取工具包

我正在构建一个工具,我可以在浏览器中选择文本,并且它将生成(通过某些Web服务调用)可用于其他文档以提取文本的分类器。

我主要看看如何使用文档的结构来指示内容是什么。

回答

1

听起来像你正在寻找某种类型的html解析器生成器。有一个Web服务(我不记得它的名字)可以让你选择页面上的区域,并且会生成xpath解析规则,但是我不确定它的工作效果如何,或者即使它仍然存在。

通常,如果您可以编写代码,最简单的方法就是自己编写解析器。我推荐BeautifulSouplxml

+0

好吧,写一个解析器是相当直接的;编写1000个解析器并维护它们是另一回事。 – MathGladiator 2010-05-09 06:12:08

+0

是的,1000个解析器会吸。因此,我建议让浏览器工具为每个网站生成xpath提取表达式,然后使用xpath表达式来提取内容的通用解析器引擎。但是您仍然有维护问题,因为网站会在不通知您的情况下更新其结构。 – Jacob 2010-05-10 14:39:15