用Python刮掉网页的关于页面

-3

我在寻找一些内容从一些网站进行研究，我希望使用python和web scraping可能会加快我的过程。我之前使用过python和美丽的汤来做一个小项目，将xml从一种格式转换为另一种格式。用Python刮掉网页的关于页面

2012-07-29 weaveoftheride

我在这里没有看到问题。如果你只是在寻找一个刮板，[scrapy]（http://scrapy.org）是相当不错的。 – Julian 2012-07-29 08:07:33

这里的问题在哪里？ – ThirdOne 2012-07-29 08:09:37

我不同意解决问题的唯一方法就是直接跳入并开始搞乱。特别是编码，因为它很容易迷失在技术上。你提出的那个网站存在缺陷，尽管我完全同意通过做法学习非常重要的是，研究和理论也很重要。必须有一个平衡。我不是要求你给我提供一个解决方案，只是给我一些指针，像下面回答的人。虽然有趣的链接。 – weaveoftheride 2012-07-29 10:00:38

根据您想要提取的数据结构有多重，可以使用多个工具。

如果您正在寻找抽取始终存储在相同DOM结构中的数据，那么Scrapy可以完成这项工作。
如果数据稀疏并存储在不同的地方，可能是BeautfulSoup4或lxml可以帮到你。
如果被一些JS代码生成的数据，看看Selenium

这里有一些资源可能对您有用：

PYCON 2012教程关于网页刮：http://pyvideo.org/video/609/web-scraping-reliably-and-efficiently-pull-data/
http://isbullsh.it/2012/04/Web-crawling-with-scrapy/（全面披露，我写了）
http://www.packtpub.com/article/web-scraping-with-python
http://wwwsearch.sourceforge.net/mechanize/

来源

2012-07-29 08:13:59

谢谢，这些都非常有用 – weaveoftheride 2012-07-29 12:38:28

用Python刮掉网页的关于页面

回答

相关问题