回答
要过滤特定文件扩展名:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
或者,如果你喜欢长选项名称:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
这将反映该网站,但没有jpg
或pdf
扩展名的文件会自动删除。
wget -m -p -E -k -K -np http://site/path/
手册页会告诉你这些选项是做。
wget
只会跟随链接,如果没有链接到索引页中的文件,那么wget
将不知道它的存在,因此不会下载它。即。如果所有文件都链接到网页或目录索引中,它会有所帮助。
感谢您的回复:) 它复制整个网站,我只需要文件(即txt,pdf ,图片等)在网站 – Aniruddhsinh 2012-01-06 09:05:26
此下载整个网站对我来说:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
+1 for'-e robots = off'!这终于解决了我的问题! :)谢谢 – NHDaly 2013-12-22 18:35:16
+1,做了我想要的。完美的镜像 – Anon343224user 2013-12-24 23:20:20
'--random-wait'选项是天才;) – poitroae 2014-02-05 23:11:09
你可以试试:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
你也可以添加:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
接受特定的扩展,或仅拒绝特定的扩展名:
-R html,htm,asp,php
或排除的具体领域:
-X "search*,forum*"
如果文件被机器人忽略(如搜索引擎),你还补充:-e robots=off
我试图下载从Omeka's themes page链接的zip文件 - 非常相似的任务。这为我工作:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A
:只接受zip文件-r
:递归-l 1
:深度只有一层(即仅将文件直接从这个页面链接)-nd
:不要创建目录结构,只需将所有文件下载到此目录中即可。
所有的答案-k
,-K
,-E
等选项可能还没有真正理解这个问题,因为这些对于重写HTML页面来进行局部结构,重命名文件.php
等。不相关。
要字面上得到的所有文件除了.html
等:
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
'-A'是区分大小写的,我认为,所以你将不得不做'-A zip,ZIP' – Flimm 2014-11-21 18:56:25
试试这个。它总是对我的作品
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
wget -m -A * -pk -e robots=off www.mysite.com/
这会从HTML文件 下载本地的所有类型的文件,并指向他们,这会忽略robots文件
- 1. 如何仅使用wget从网站下载.exe文件?
- 2. 从网站下载所有PDF文件
- 3. 如何使用wget一次下载所有这些文件?
- 4. 使用wget从网页下载所有数据
- 5. 使用wget下载文件
- 6. 下载的所有文件在网站
- 7. 使用python从网站下载文件
- 8. 如何使用PHP从网站下载所有特定类型的文件?
- 9. 如何从C#网站下载文件?
- 10. SILVERLIGHT。如何从网站下载文件
- 11. 下载通过wget的不特定文件夹中的网站
- 12. 如何使用wget将大量zip文件下载到网址
- 13. wget从一个自定义网站下载PHP加载的所有图像
- 14. 如何使用--accept-regex选项通过wget下载网站?
- 15. 使用Python从网站下载不同格式的所有文件
- 16. Wget下载html
- 17. wget - 如何使用wget从http服务器下载所有仅包含“480p”的文件?
- 18. 如何使用wget从框中下载文件?
- 19. 如何使用python和BeautifulSoup从网站下载.qrs文件?
- 20. 如何使用python从网站下载mp3文件
- 21. 如何从服务器下载文件,使用asp.net网站
- 22. 从网站下载所有html文件并重新上传的最佳工具
- 23. 如何从网站中拉出图片链接并使用wget下载它们?
- 24. 使用wget下载图片文件夹
- 25. 使用wget下载ZIP文件
- 26. 如何在网站上使用wget有许多文件夹和子文件夹
- 27. 我如何从网站下载文章?
- 28. 如何从html链接抓取并下载所有pdf文件?
- 29. 如何从网址下载所有文件?
- 30. 如何使用用户代理使用Wget下载网页
即使你想要下载PHP,它使用wget是不可能的。我们只能使用wget获取原始HTML。我猜你知道原因 – 2013-09-26 16:35:45
**注意:**总是首先检查'wget --spider',并且总是添加'-w 1'(或更多的'-w 5'),这样你就不会淹没其他人的服务器。 – isomorphismes 2015-03-06 00:34:29
我该如何下载本页面中的所有pdf文件? http://pualib.com/collection/pua-titles-a.html – Arturo 2015-11-16 08:56:48