获取Google搜索结果和清除HTML标记的建议

我正在开发一个项目，以获取Google搜索网页，然后清理HTML标记以获取纯文本内容。获取Google搜索结果和清除HTML标记的建议

可用工具的任何建议（尤其是Python的工具）

千恩万谢。

来源

2011-03-04 Leo5188

http://lxml.de/ – thirtydot 2011-03-04 21:38:14

建议：继续搜索HTML解析和Python。例如http://stackoverflow.com/search?q=html+parsing+%5Bpython%5D有很多关于如何继续的提示。 – 2011-03-04 21:54:58

我对一件事感到好奇......您是否故意不使用Google的自定义搜索API？它将为您提供比搜索结果的HTML更稳定的一组结果，其格式不保证在请求后保持相同的请求。 – 2011-03-04 22:04:34

最后找到一个不错的套件BootCat。

来源

2011-09-15 18:33:11 Leo5188

Python有一个内置的实际上很快，发现here。还有一个叫Beautiful Soup的功能非常强大，它提供了额外的功能，尤其是对于HTML抓取。但是，我也不得不问，为什么不使用搜索API？

来源

2011-03-05 01:38:07 JoshC13

刚刚找到一个很酷的python脚本[链接]（http://breakingcode.wordpress.com/2010/06/29/google-search-python/）它提供了一种非常简单的方式来从Google搜索结果。另外，由于Google每天只允许每个帐户100次自定义搜索，因此作者警告我们不要在公司代理的后面工作。 – Leo5188 2011-03-05 02:30:34

我会检查出Pattern，它是一个Python Web挖掘模块，提供一套文本检索，分析和viz工具。我没有亲自使用它，但看起来很强大。

Module pattern.web是一个Web工具包，它将各种API（Google，Gmail，Bing，Twitter，Wikipedia，Flickr）与强大的HTML解析器和Web Spider捆绑在一起。其目的是以易于使用的统一方式检索在线内容。

来源

2011-03-05 15:08:48

谢谢约翰，我从Twitter注意到这一点，但没有将其链接到我的任务。 – Leo5188 2011-03-06 14:33:43

获取Google搜索结果和清除HTML标记的建议

回答

相关问题