2011-09-06 65 views
2

我正在运行一个红宝石海葵web刮板,并且当我访问需要登录的页面时,我给服务器一些问题。海葵忽略包含某个短语的网址链接

这些网页在网址中都有一个短语,例如“account”,我希望程序完全忽略,并且不会与包含此字符串的目的地进行任何链接。

我该怎么做?

回答

4

海葵有skip_links_like method

skip_links_like(*模式)
添加一个或多个正则表达式模式的不应该被遵循的网址

所以添加类似

skip_links_like /\/account\// 

应该带c是它:

Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone| 
    anemone.skip_links_like /\/account\// 
    #... 
end 
+0

所以它看起来像这样?: Anemone.crawl( “http://www.somesite.co.uk”:depth_limit => 1,skip_links_like/\ /帐户\ // )do | anemone | – Benjamin

+0

@Benjamin:请参阅我的更新。 –