0
我使用这个命令行程序,我在another post on SO中找到了描述如何蜘蛛网站。数据如何通过管道进行处理?
wget --spider --force-html -r -l2 http://example.com 2>&1 | grep '^--' | awk '{ print $3 }' | grep -v '\.\(css\|js\|png\|gif\|jpg\)$' > wget.out
当我抓取一个大型站点时,需要很长时间才能完成。同时磁盘上的wget.out文件显示零大小。那么,管道数据何时被处理并写入磁盘上的文件?它是否在管道的每个阶段都已经运行完成之后?那样的话,wget.out会在整个抓取结束后填满吗?
如何使程序间歇地写入磁盘,以便即使爬行阶段中断,我也保存了一些输出?
可能重复[关闭管道中的缓冲](http://stackoverflow.com/questions/1000674/turn-off-buffering-in-pipe) – eumiro 2011-01-24 11:10:40