2013-03-16 49 views

回答

1

该链路可以通过使用下面的命令可以找到

仓/ Nutch的readdb PATH_TO_CRAWL_DB -stats -sort -dump DUMP_FOLDER设置格式的csv

这将产生部分-00000文件中dump_folder其中将包含url列表及其状态分别。

具有db_unfetched状态的那些已被履带式程序忽略。

+0

正是我想要的。谢谢! – sunskin 2013-03-25 15:38:19