我试图使用带-p选项的wget
下载特定文档和HTML中链接的图像。下载带有WGet的HTML和图像,不需要几行
问题是,托管HTML的网站在HTML之前有一些非HTML信息。这导致wget
不将该文档解释为HTML并且不搜索图像。
有没有办法让wget
去掉第一个X行和/或强制搜索图像?
实例网址:
内容第一线:
<DOCUMENT>
<TYPE>S-4
<SEQUENCE>1
<FILENAME>ds4.htm
<DESCRIPTION>FORM S-4
<TEXT>
<HTML><HEAD>
<TITLE>Form S-4</TITLE>
最后的内容范围:
</BODY></HTML>
</TEXT>
</DOCUMENT>
编辑:在PHP解决方案是肯定接受。
很棒的发现!我甚至没有想过看看机器人文件。那么,你的备用方法给了我一些问题(由于在文件中的锚链接),所以相反,我只是用'-e robots = off'来绕过Robots文件谢谢! – 2010-03-31 16:30:11