2012-04-14 92 views
1

我需要开发一个刮刮工具,从整个网页上刮擦产品的数据(价格,标题等)。现在,我确实有过拼抢的经验,但这是针对单个网站的。我不知道如何刮掉整个网页。一种可能的解决方案是查询谷歌,然后从谷歌中出现的链接刮掉每个网站。这是一个好方法吗?从整个网络刮掉数据

我只需要一个通用的方法来解决这个问题,因为我发现每个站点都可能有自己的表示数据的方式。我如何结合所有这些变化?任何指导方针/提示?

回答

1

谷歌有一个内置的多网站价格比较功能,请参阅:http://www.google.co.uk/shopping

你可以尝试查询使用谷歌自己的自定义搜索API或卷曲该资源,虽然API可能是一个更好的选择,因为谷歌是出了名的棘手刮,并可能锁定IP,如果它认为卷曲脚本或类似正在使用..另一种方法是将数据从某人elses比较网站(s)拉如果用手编写多个站点的想法填满了恐惧。