2010-09-12 61 views
1

我想开始将大量原始HTML页面解析为语义数据结构。用于网站解析的库/工具

只是对这种任务的各种可用工具的社区意见感兴趣,特别是各种有用的任何语言的库。

到目前为止,计划使用Hadoop来管理大量的处理,但对备选方案感到好奇。

+0

你什么意思做'解析HTML转换成语义数据结构? – bmargulies 2010-09-12 00:25:37

+0

编写读取特定HTML页面的程序,并选取特定元素存储在某些本地数据结构中。 – Kevin 2010-09-12 19:04:34

回答

0

首先,您需要下载页面源代码,然后创建一个DOM树。如果您在C#中编写代码,您可以使用以下工具创建您的DOM树。

1)http://htmlagilitypack.codeplex.com/
2)http://www.majestic12.co.uk/projects/html_parser.php

第一个是易于使用,但第二个是速度更快,内存友好,我建议你,如果你想创建一个强大的应用程序中使用第二个

那么你可以使用提取网页内容有用:

http://www.chrisspen.com/blog/how-to-extract-a-webpages-main-article-content.html

和许多其他文章你可以找到谷歌搜索来提取网页内容(提取网页主要内容)

希望它可以帮助