2011-03-04 100 views
1

我正在开发一个项目,以获取Google搜索网页,然后清理HTML标记以获取纯文本内容。获取Google搜索结果和清除HTML标记的建议

可用工具的任何建议(尤其是Python的工具)

千恩万谢。

+0

http://lxml.de/ – thirtydot 2011-03-04 21:38:14

+0

建议:继续搜索HTML解析和Python。例如http://stackoverflow.com/search?q=html+parsing+%5Bpython%5D有很多关于如何继续的提示。 – 2011-03-04 21:54:58

+4

我对一件事感到好奇......您是否故意不使用Google的自定义搜索API?它将为您提供比搜索结果的HTML更稳定的一组结果,其格式不保证在请求后保持相同的请求。 – 2011-03-04 22:04:34

回答

0

Python有一个内置的实际上很快,发现here。还有一个叫Beautiful Soup的功能非常强大,它提供了额外的功能,尤其是对于HTML抓取。但是,我也不得不问,为什么不使用搜索API?

+1

刚刚找到一个很酷的python脚本[链接](http://breakingcode.wordpress.com/2010/06/29/google-search-python/)它提供了一种非常简单的方式来从Google搜索结果。另外,由于Google每天只允许每个帐户100次自定义搜索,因此作者警告我们不要在公司代理的后面工作。 – Leo5188 2011-03-05 02:30:34

2

我会检查出Pattern,它是一个Python Web挖掘模块,提供一套文本检索,分析和viz工具。我没有亲自使用它,但看起来很强大。

Module pattern.web是一个Web工具包,它将各种API(Google,Gmail,Bing,Twitter,Wikipedia,Flickr)与强大的HTML解析器和Web Spider捆绑在一起。其目的是以易于使用的统一方式检索在线内容。

+0

谢谢约翰,我从Twitter注意到这一点,但没有将其链接到我的任务。 – Leo5188 2011-03-06 14:33:43