我正在寻找一种用于编写高效的网络爬虫的语言。事情我很看重:高效的网络爬虫的语言建议
- 语言表达(不要让我只是通过静态类型箍)
- 有用的库(CSS选择器基于HTML解析器将是很好)
- 最小的内存占用
- 可靠语言运行库&库
我试过node.js.理论上我喜欢节点。 Javascript非常富有表现力。你可以使用jQuery来解析html。节点的异步特性让我可以并行地抓取多个urls而不用处理线程。 V8解析速度很快且很快。
实际上,node并不适合我。我的过程不断崩溃。总线错误,事件管理器中的例外......等等
我已经做了一些Ruby开发,所以我不介意使用Ruby 1.9的协同程序(光纤?),只要我赢了'不会遇到与VM /库稳定性相似的问题。
其他建议?
我敢肯定,崩溃不是由我的代码中的问题引起的。我的代码更可能暴露了节点中的问题。特别是在总线错误的情况下。我喜欢Ruby,我只是没有在Ruby中编写异步代码的经验,所以我不知道它是否像在节点中一样“容易”。 – richcollins 2010-12-03 20:11:23