我想要做的是通过所有可能的产品页面重复给予10位数字的ID如何加快网页抓取IDS-引入nokogiri /红宝石迭代
我想刮的页面的例子somewebsite.com/product?productid=10000000000
刮板会进入页面查看是否存在标签以查看它是否为产品页面,然后记录该URL(如果是)或者如果它移动到下一页面不是。
做迭代1乘1(productid = large number ++)太慢了,看起来有些样本产品ID看起来像没有模式的数字,例如(121212121212)更有可能我想问什么是一种方法在更合理的时间内遍历这些页面。我现在正在用nokogiri做红宝石。
我们需要查看当前用于迭代的代码,将其分解为仅处理该部分的裸代码。我们还需要更好地理解ID。 – 2014-10-30 18:40:29
使用遏制宝石下载所有页面,然后解析它们。 https://github.com/taf2/curb – Duck1337 2014-10-31 20:31:54