我需要一个基于开放源码的基于java的网络crwaler,我可以扩展以进行价格比较吗? 如何进行价格比较? 是否有任何开源代码?使用网络爬虫进行价格比较
回答
看看网站的收获,你将不得不使用它的稍微奇数和特殊的语法处理网页,但它应该是相当延长它做一些价格比较:
这个应用程序似乎非常酷,易于使用,但不幸的是,在现实中(我的措施)的表现非常糟糕。 – javamonkey79 2010-12-18 20:49:06
任何原因你不能从数百个价格比较网站中的任何一个获得你的数据?似乎会更简单地刮nextag或froogle或其他任何东西,而不是写一个抓取工具来抓取数十亿的商店网站。
Thx回复。是的,我已经评论过网页收获。是的,我也有关于只是刮价格比较网站的想法?所以它应该是一个爬虫权利?接下来的价格比较网站让你克服他们的网站?我在这里错过了什么吗? 如果它很简单,你需要的只是10-20个网站的权利? – yeskay 2010-02-16 00:44:54
大厦的东西,从大量不同网站的价格刮信息将是大量的工作,无论你从商店本身刮或从现有比较网站。
每个人的网站布局都会有所不同,因此您需要为每个网站分别配置抓取工具。
某些网站可能存在的价格信息的方式,使刮困难;例如使用AJAX。
一些网站所有者就会把相关的网页到他们robots.txt
文件来告诉你要远离。如果你忽视这一点,他们可以做许多事情来让你生活变得困难。
刮很多人的网站未经许可很可能会让你不受欢迎。这可能会吸引诉讼的威胁,或者来自认为您正在损害其商业模式的人的实际诉讼。或其他反应...
你真的确定要这么做吗?真??
没有人希望自己的网站以没有得到任何好处超载。我认为你应该为你的需要创建一个爬虫。但是,请注意,它们中的大多数可能会阻止您或使您的响应速度变慢。你需要表现得像你是不是一个,吃它们的带宽......这里
有人写了一篇关于法律问题。法律问题并不简单。斯蒂芬C写了关于诉讼,但这是双向的。有很多与反竞争行为有关的法律体系。如果有人希望他们的价格不被报告,因为他们涉及价格欺诈或虚假声明,那么这些网站本身就面临严厉的处罚。法律不是可以引用的。你可以谷歌价格修复,并看到已对无数公司施加的大额罚款。
- 1. 网络爬虫
- 2. 在网络爬行,价格比较后确定产品
- 3. PHP网络爬虫
- 4. java网络爬虫
- 5. Python网络爬虫
- 6. 网络爬虫应用
- 7. 使用python beautifulsoup进行网页爬虫
- 8. 网络爬虫文本格式
- 9. 网络爬虫使用双绞线
- 10. 错误使用C#网络爬虫
- 11. 需要网络爬虫
- 12. 自动网络爬虫
- 13. 网络爬虫,反馈?
- 14. 网络爬虫不打印
- 15. 网络爬虫提取
- 16. 网络爬虫是否仅依靠主页上的链接来进行爬网?
- 17. 如何使网络爬虫更有效?
- 18. 使用多线程来改进网络爬虫/蜘蛛
- 19. Python简单的网络爬虫错误(无限循环爬行)
- 20. 是一个网络爬虫更合适?
- 21. 在Scala中的网络爬虫算法
- 22. 识别敌对网络爬虫
- 23. 与Python 2.7.9分页网络爬虫
- 24. 网络爬虫遇到什么危险?
- 25. PHP与Python对于网络爬虫
- 26. 制作网络爬虫/蜘蛛
- 27. 在android上的简单网络爬虫?
- 28. 网络爬虫和GET与POST请求
- 29. 网络爬虫产生输出缓存
- 30. 网络爬虫更新策略
请勿自行抓取网页。它只会导致痛苦和麻烦(代码和法律方面)。您应该联系价格表供应商以获取有关其公共Web服务的更多信息,然后利用它。 – BalusC 2010-02-16 01:55:00
@BalusC麻烦(法律条款)?如何和为什么? – Lite 2016-04-12 18:01:57