我正在尝试编写一个爬取程序,它将采用特定的搜索条目并保存与结果相关的大量.CSV文件。Python网站爬虫,使用Scrapy保存文件
我已经有蜘蛛登录,解析所有我需要的html数据,现在我只剩下要做的就是弄清楚如何保存我需要的文件。
因此搜索将返回链接,如本 https://www.thissite.com/data/file_download.jsp?filetype=1&id=22944
,然后在Web浏览器会提示您保存相关的.csv文件。我如何写我的蜘蛛来加载这个页面并下载文件?或者有什么方法可以捕捉到信息的静态链接?
看看URL返回的是什么,它可能是一个重定向。 – tripleee
看起来不是重定向。 – howdoicrawlweb