2011-12-12 62 views

回答

9

尝试crawler4j。您只需实现一个简单的界面,该界面控制要访问哪些URL以及如何处理每个已爬网页。

+0

我在使用此爬网程序(“site没有回应“,而在浏览器中打开罚款等) – ed22

5

在java我认为它归结为NutchHeritrix。您应该指定您的需求以获得更好的答案。