在我看来,在这个时间点上,一个单一的工具将升级为主导,因为这个过程似乎足够通用:指向一个起始URL,与它的表单和脚本交互,跟随链接,下载数据。冲洗,重复。虽然我总是在构建临时应用程序时获得某种满足感,以便在硬盘上跳过几百个文件,但我不知道是不是在重新创建轮子。Web爬行/刮 - 建立或购买?
我承认我还没有尝试过一些像Automation Anywhere这样的商业产品,但是因为我试图让全职工作做我真正喜欢做的事情,分析数据而不是检索它,我希望这里人群的智慧可以将我指向明确的讨论方向。是不是有太多的怪癖有一个单一的工具几乎所有的情况?
让我澄清或复杂 - 我看过一些浏览器“宏观”类型的工具,如iRobot,iOpus,发现它们很慢。对于严重的大型文档集合,我希望在集群/云上运行爬网程序,所以我只是不确定这些工具在那种环境下如何工作。对于我的使用情况下,比方说我要
- 检索大约有一百万文档
- 从不需要登录,但是使得导航大量使用JavaScript的一个网站。
- 使用Amazon或Azure服务器来完成这项工作。
一个例子可能是这个网站上,来自美国人口普查(有更有效的方式从他们那里得到的数据,但该网站的风格是数据量和导航的一个很好的例子):
http://factfinder2.census.gov/faces/nav/jsf/pages/searchresults.xhtml?ref=addr&refresh=t