我开始编写scrapers来从不同网站获取数据。我在rake文件中构建了第一个刮板,现在开始编写第二个rake文件以从第二个站点获取数据。现在,我正在为每个我感兴趣的站点撰写特定的刮板(而不是试图构建通用刮板)。使用导轨刮取Rake任务
我有3个问题:
正在写Rake任务一个很好的选择吗?我应该考虑哪些替代方案?
如何添加函数/方法到我的耙文件? (对不起,非常愚蠢的问题,但我不知道如何构建我的代码......所以现在它只是500行不间断代码在一个长方法),例如,我想要一个“get_description(节) “从页面返回描述的方法。该方法可能会有所不同,具体取决于我要抓取的网站。
如何使用RSpec测试我的任务?我想给一个链接,并确保我的任务输出符合我期望得到的结果
感谢您的帮助!如果你想使用它,你还可以检查出thor它使用更标准的红宝石般的语法,而不是DSL耙为您提供
太棒了,这有助于很多!看来这是我应该遵循的路线...只有一个问题:我想避免在我的Rails应用程序的“模型”文件夹中包含我的Scraper特定模型。如何为Scraper特定模型创建文件夹(常见功能为scraper.rb,site1特定功能为site1.rb等),并让我的rake任务“查看”它? – alex 2010-12-09 19:25:36