我只是有几个关于这个话题的问题。刮屏|网页抓取
有人可以解释的优点和使用下列语言来编写刮刀的缺点:
的Java/Groovy的
的Perl
比索
硒
的Python
我是也想知道在刮脸时可能会遇到什么样的问题,以及我应该如何处理它。例如,我遇到了片段身份,还没有找到处理它的方法。 (我正在使用htmlunit)
只是为那些对这个话题有所了解的人寻找一些指针。
我只是有几个关于这个话题的问题。刮屏|网页抓取
有人可以解释的优点和使用下列语言来编写刮刀的缺点:
的Java/Groovy的
的Perl
比索
硒
的Python
我是也想知道在刮脸时可能会遇到什么样的问题,以及我应该如何处理它。例如,我遇到了片段身份,还没有找到处理它的方法。 (我正在使用htmlunit)
只是为那些对这个话题有所了解的人寻找一些指针。
与编程语言本身相比,优点/缺点更多地与可用的框架相关。
谢谢,我没有考虑过仅仅为了刮目的考虑Python。我将不得不看看你的建议。也感谢关于在定时器上运行请求的提示。 – StartingGroovy 2010-12-17 21:54:11
考虑看TestPlan。它有它自己的高级语言,但你也可以用Java编写模块。它支持Selenium后端以及HTMLUnit。
如果你可以给你一个特定的问题(问题)与你的片段,那么我也可以回答。
我想我会接受你的建议(因为我最熟悉Java/Groovy)。我也在考虑关注Selenium;我听说过很多关于它的事情。至于我的具体问题:http://stackoverflow.com/questions/4320179/htmlunit-getbyxpath-returns-null我针对该问题的评论答案。我还没有解决这个具体问题。我不知道如何处理与HTMLUnit – StartingGroovy 2010-12-17 21:55:56
片段标识符只是想知道如果你有一个时刻来看看我的问题? – StartingGroovy 2010-12-20 21:54:11
谢谢你的详细解答。你已经清除了我在周围漂浮的几个问题。你有没有处理Selenium?我一直在考虑检查它,但还没有迈出这一步。我想在跳上之前我会做一些研究。 – StartingGroovy 2010-12-17 21:58:34
不,我没有使用硒,我用过Watir。在这种情况下看看有关利弊的过去问题:http://stackoverflow.com/questions/606550/watir-vs-selenium-vs-sahi我只需要补充一点,Watir对我来说似乎很慢。 – 2010-12-22 19:08:25
非常感谢您的意见,这非常有帮助 – StartingGroovy 2010-12-22 20:42:19