2012-07-29 97 views
-3

我在寻找一些内容从一些网站进行研究,我希望使用python和web scraping可能会加快我的过程。我之前使用过python和美丽的汤来做一个小项目,将xml从一种格式转换为另一种格式。用Python刮掉网页的关于页面

+2

我在这里没有看到问题。如果你只是在寻找一个刮板,[scrapy](http://scrapy.org)是相当不错的。 – Julian 2012-07-29 08:07:33

+2

这里的问题在哪里? – ThirdOne 2012-07-29 08:09:37

+0

我不同意解决问题的唯一方法就是直接跳入并开始搞乱。特别是编码,因为它很容易迷失在技术上。你提出的那个网站存在缺陷,尽管我完全同意通过做法学习非常重要的是,研究和理论也很重要。必须有一个平衡。我不是要求你给我提供一个解决方案,只是给我一些指针,像下面回答的人。虽然有趣的链接。 – weaveoftheride 2012-07-29 10:00:38

回答

3

根据您想要提取的数据结构有多重,可以使用多个工具。

  • 如果您正在寻找抽取始终存储在相同DOM结构中的数据,那么Scrapy可以完成这项工作。
  • 如果数据稀疏并存储在不同的地方,可能是BeautfulSoup4lxml可以帮到你。
  • 如果被一些JS代码生成的数据,看看Selenium

这里有一些资源可能对您有用:

+0

谢谢,这些都非常有用 – weaveoftheride 2012-07-29 12:38:28