2010-02-16 80 views
6

我需要一个基于开放源码的基于java的网络crwaler,我可以扩展以进行价格比较吗? 如何进行价格比较? 是否有任何开源代码?使用网络爬虫进行价格比较

+0

请勿自行抓取网页。它只会导致痛苦和麻烦(代码和法律方面)。您应该联系价格表供应商以获取有关其公共Web服务的更多信息,然后利用它。 – BalusC 2010-02-16 01:55:00

+0

@BalusC麻烦(法律条款)?如何和为什么? – Lite 2016-04-12 18:01:57

回答

3

看看网站的收获,你将不得不使用它的稍微奇数和特殊的语法处理网页,但它应该是相当延长它做一些价格比较:

http://web-harvest.sourceforge.net/samples.php?num=2

+0

这个应用程序似乎非常酷,易于使用,但不幸的是,在现实中(我的措施)的表现非常糟糕。 – javamonkey79 2010-12-18 20:49:06

1

任何原因你不能从数百个价格比较网站中的任何一个获得你的数据?似乎会更简单地刮nextag或froogle或其他任何东西,而不是写一个抓取工具来抓取数十亿的商店网站。

+1

Thx回复。是的,我已经评论过网页收获。是的,我也有关于只是刮价格比较网站的想法?所以它应该是一个爬虫权利?接下来的价格比较网站让你克服他们的网站?我在这里错过了什么吗? 如果它很简单,你需要的只是10-20个网站的权利? – yeskay 2010-02-16 00:44:54

2

大厦的东西,从大量不同网站的价格刮信息将是大量的工作,无论你从商店本身刮或从现有比较网站。

  • 每个人的网站布局都会有所不同,因此您需要为每个网站分别配置抓取工具。

  • 某些网站可能存在的价格信息的方式,使刮困难;例如使用AJAX。

一些网站所有者就会把相关的网页到他们robots.txt文件来告诉你要远离。如果你忽视这一点,他们可以做许多事情来让你生活变得困难。

刮很多人的网站未经许可很可能会让你不受欢迎。这可能会吸引诉讼的威胁,或者来自认为您正在损害其商业模式的人的实际诉讼。或其他反应...

你真的确定要这么做吗?真??

0

没有人希望自己的网站以没有得到任何好处超载。我认为你应该为你的需要创建一个爬虫。但是,请注意,它们中的大多数可能会阻止您或使您的响应速度变慢。你需要表现得像你是不是一个,吃它们的带宽......这里

0

有人写了一篇关于法律问题。法律问题并不简单。斯蒂芬C写了关于诉讼,但这是双向的。有很多与反竞争行为有关的法律体系。如果有人希望他们的价格不被报告,因为他们涉及价格欺诈或虚假声明,那么这些网站本身就面临严厉的处罚。法律不是可以引用的。你可以谷歌价格修复,并看到已对无数公司施加的大额罚款。