2010-02-25 80 views
5

我正在寻找一个通用的API/Web服务/工具/等......它允许将给定的HTML页面转换为尽可能具体的RDF图形(最有可能使用背骨本体和/或映射器)。将HTML转换为RDF

+1

你对HTML文档的内容有任何控制权吗?还是它必须是任何随机文件? – Scott 2010-02-25 15:52:40

+0

它可以是任何HTML文档。我需要将HTML文档的结构提取到RDF图中。如果转换使用骨干映射器/本体,那么它更好。 – jaxvy 2010-02-26 20:44:00

+0

看起来XSPARQL可以通过根据本体编写的自定义查询来实现... – jaxvy 2010-02-26 21:13:55

回答

2

我用XQuery从给定的网页集中提取数据。我必须为网页编写自定义查询。我认为这是针对特定的一组HTML文件采取的最直接的方法。但是,对一般情况来说显然不好。对于不同的网页集,需要编写其他自定义查询。

2

你证明了GRDDL

GRDDL是获得RDF从XML文件和 尤其是XHTML页面 数据的技术。

0

我用JSoup从HTML中抓取数据。它使用查询HTML DOM的jQuery风格,至此我已经熟悉了,所以它是真正简单的工具,可供我使用。我也资助它相当强大,但我需要它只是为了刮掉3个数据源,所以我没有丰富的经验与这个工具呢。 jsoup