2011-02-15 118 views
0

我有兴趣从网页和其他目前没有语义意识的源中提取语义数据(简单模板内容)。我以前使用一堆不同的语言编写了爬网程序和手动解析器,但似乎总是有很多样板和页面特定的代码,并且想知道您是否知道简化过程的任何平台或框架(开源只有请)。从网页中提取语义数据

我会写一个,如果我找不到一个,所以链接到类似的系统或框架建议也将不胜感激。

回答

1

该领域被称为“自动包装提取”,是一个活跃的研究领域,但我还没有看到一个好的开源工具包。一家名为lixto的公司制作了一个您可能感兴趣的商业工具。我很想看到一个解决这个问题的开源项目。