2010-07-21 78 views
1

我最近发现了Scrapy,我发现它非常高效。但是,我真的不知道如何将它嵌入到用python编写的更大的项目中。我想创建以正常方式蜘蛛,但能与函数启动它在一个给定的URL基于Scrapy的Python函数完全抓取一个网站

start_crawl(url) 

这将发动对给定域中爬行的过程中,停止只有当所有的网页已看到。

回答

3

Scrapy要复杂得多。它运行多个进程并使用多线程。所以实际上没有办法将它用作普通的python函数。当然,您可以导入启动爬虫并调用它的函数,但是呢?您将拥有正常的精简流程,控制了您的程序。

这里最好的方法可能是将程序运行为子程序并使用数据库或文件与它通信。你的程序和爬虫之间有很好的分离,并且对主进程有很好的控制。

+0

是的,您至少可以将有趣的信息写入文件。然后从主应用程序中检查文件。 Scrapy绝对是作为独立应用程序设计的,可写入“数据存储”。 – 2010-07-23 03:45:16

+0

请看这里http://gist.github.com/484009 – Rolando 2010-07-23 12:19:49