我正在研究一个ROR应用程序,我需要实现一个抓取其他网站并将数据存储在我的数据库中的抓取工具。例如,假设我想抓取http://www.snapdeal.com中的所有交易并将它们存储到我的数据库中。如何使用爬虫实现这一点?如何在ruby中编写爬虫?
回答
有几个选项取决于您的用例。
- Nokogiri。 Here是RailsCast,可以帮助你入门。
- Mechanize建在Nokogiri之上。请参阅Mechanize RailsCast。
- Screen Screen with ScrAPI and ScrAPI RailsCast。
- Hpricot。
我已经使用Nokogiri和机械化的组合为我的一些项目,我认为他们是不错的选择。
你想看看mechanize。另外从你提到的你可能根本不需要铁轨。
他可能需要网络服务器来运行它,我认为Rails将会拯救。当然,还有其他的Web服务器,但Rails很简单。 – 2012-02-21 07:50:44
@bhushan,从他提到的没有,没有理由认为铁路将是有用的。 – pguardiario 2012-02-21 08:11:06
我知道这个脚本是独立的,但是如何将它们与App结合? – 2012-02-21 08:14:28
- 1. 如何在javascript中编写此爬虫程序?
- 2. 如何重写以下rx-java爬虫
- 3. 如何在ASP.NET中创建Web爬虫?
- 4. Ruby中的Web爬虫:如何实现最佳性能?
- 5. Python爬虫 - html.fromstring
- 6. 爬虫实例
- 7. 网络爬虫
- 8. 如何在asp.net后端运行爬虫?
- 9. 用飞镖写的网页爬虫
- 10. 使用cron编写一个PHP网络爬虫
- 11. 为高效方式编写网络爬虫的建议
- 12. python中的Facebook爬虫
- 13. 开源C++爬虫?
- 14. php爬虫检测
- 15. 重定向爬虫
- 16. PHP网络爬虫
- 17. java网络爬虫
- 18. 爬虫vs刮板
- 19. Python网络爬虫
- 20. 如何使用Node.js创建Web爬虫?
- 21. 如何组织许多爬虫功能?
- 22. 如何让Nutch的爬虫抓取
- 23. 网络爬虫如何处理javascript
- 24. 如何使网络爬虫更有效?
- 25. 一个爬虫可以完全写在JavaScript中吗?
- 26. 在Scala中的网络爬虫算法
- 27. 在Solr中使用Nutch爬虫
- 28. 如何在java中创建网络爬虫?
- 29. 如何在Java中设计一个Web爬虫?
- 30. 如何在Django中处理网络爬虫?
就像任何其他语言一样。获取一些HTML,解析它,跟随链接,将所有内容存储在数据库中。 – 2012-02-21 05:19:48
您可以尝试[先锋宝石](https://github.com/fl00r/pioneer),但它仍在开发中 – fl00r 2012-03-05 21:40:18