2011-05-06 50 views
9

什么是一些基于Ruby的工具,可以帮助我实现类似于Scrapy为python做的事情? http://doc.scrapy.org/intro/overview.htmlRuby替代Scrapy?

+2

您可能想给scrapy一个镜头。它似乎具有出色的文档和非常友好的API。如果你熟悉ruby拾取python可能不会超过一两天。他们是非常相似的语言。 – zeekay 2011-05-06 16:15:04

+0

@zeekay,你的意思是[scrappy](http://rubydoc.info/gems/scrappy/0.3.5/frames)? – Zabba 2011-05-06 16:26:16

+1

不,他问了scrapy的ruby替代方法,scrapy是一个用于爬取网站和提取结构化数据的python应用程序框架。我只是指出,学习Python很容易,他可能只是使用它(假设没有找到令人满意的替代方案)。 – zeekay 2011-05-06 16:36:38

回答

11

Mechanize这是建立在Nokogiri。

Nokigiri这是基于XPath。

Hpricot是另一种工具。

还有Scrapi这是基于CSS选择器来提取信息,但执行速度比基于我的测试Nokogiri慢。

还有scRUBYt

我确定还有其他人,但是这些是我遇到的人。

如果您找不到解决您问题的单个工具,请检查webloader库(如Anemone),并将其与上面列出的某个低级别抓取框架结合使用。

或者继续学习Python。它会在编程世界中扩展你的业力。

+2

据我所知(我不知道Ruby),这些模块只是HTML/XML解析器,而不是像Scrapy这样的框架。 。 – Acorn 2011-05-06 17:20:09

+1

@Acorn--这些都是刮框架。他们没有的是履带或蜘蛛。刮擦与爬行正交。 – Anurag 2011-05-06 17:42:24

+5

但是爬行只是Scrapy的一个方面。它具有许多适用于任何类型刮擦的功能,例如用于存储结果的项目和管道。链接的工具看起来可以与lxml或BeautifulSoup相比,而不是Scrapy。 – Acorn 2011-05-06 17:45:53