2
我正在运行一个红宝石海葵web刮板,并且当我访问需要登录的页面时,我给服务器一些问题。海葵忽略包含某个短语的网址链接
这些网页在网址中都有一个短语,例如“account”,我希望程序完全忽略,并且不会与包含此字符串的目的地进行任何链接。
我该怎么做?
我正在运行一个红宝石海葵web刮板,并且当我访问需要登录的页面时,我给服务器一些问题。海葵忽略包含某个短语的网址链接
这些网页在网址中都有一个短语,例如“account”,我希望程序完全忽略,并且不会与包含此字符串的目的地进行任何链接。
我该怎么做?
skip_links_like(*模式)
添加一个或多个正则表达式模式的不应该被遵循的网址
所以添加类似
skip_links_like /\/account\//
应该带c是它:
Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
anemone.skip_links_like /\/account\//
#...
end
所以它看起来像这样?: Anemone.crawl( “http://www.somesite.co.uk”:depth_limit => 1,skip_links_like/\ /帐户\ // )do | anemone | – Benjamin
@Benjamin:请参阅我的更新。 –