我写了一些Scrapy蜘蛛。它将数据导出到我通过命令行传递的名称:E:\Anaconda3\envs\Blog2Doc\Lib\site-packages\scrapy\cmdline.py runspider blog2doc_scrapy\spiders\blog_spider.py -o ..\data\out.html
。如果这个文件已经存在,这个蜘蛛只是将内容附加到已存在的文件中。如何检查输出文件是否已经存在并且是否存在 - 删除它。为了导出到文件,我编写了Blog2DocExporter(BaseItemExporter)类。它没有打开输出文件,在构造函数中它已经打开了文件对象。所以在这个导出器类中,我无法检查导出的文件是否已经存在。在Scrapy中如何检查导出的文件是否已经存在?
0
A
回答
0
Scrapy覆盖输出文件是一个已知的公开问题。例如见:
- output as xml appending to existing file when spider re-executed resulting in invalid xml
- Add a command-line option for overwriting exported file
我自己提出了修复与增加后缀重命名文件。但是实现不是向后兼容的。 您可能会发现这很有仍然:https://github.com/scrapy/scrapy/pull/2093
它改变了FileFeedStorage
,但你可以实现类似的东西,并期待在this other answer使用这种自定义源存储类。
相关问题
- 1. 检查数据是否已经存在
- 2. 检查表单是否已经存在
- 3. Rails,检查url是否已经存在
- 4. 如何检查文件是否已经在COBOL中打开?
- 5. 如何检查文件夹中是否已存在文件
- 6. 检查文件是否已经存在于相同的路径
- 7. 使用VBA powerpoint检查文件是否已经存在
- 8. 如何检查EC2中是否已经存在keyname
- 9. 如何检查目录是否已经存在于MFC(VC++)中?
- 10. 如何检查PHP数据库中是否已经存在url?
- 11. 如何检查DOM中是否已经存在三个元素
- 12. 检查文件是否已经打开
- 13. 如何检查表单的实例是否已经存在?
- 14. 如何检查表上的数据是否已经存在?
- 15. 检查内存中的值是否已经存在
- 16. 如何检查是否ID已经存在 - 笨
- 17. 如何将spring mongodbtemplate检查对象是否已经存在
- 18. 如何检查bool是否已经存在
- 19. 如何检查一个集合是否已经存在于ArangoDB
- 20. 如何检查记录是否已经存在?
- 21. 如何检查是否值已经存在
- 22. 如何检查文件是否存在?
- 23. 如何检查文件是否存在?
- 24. 检查电子邮件是否已经存在与JQuery
- 25. PHP检查电子邮件是否已经存在
- 26. 检查SQLite表中是否已经存在具有值的行
- 27. 如何检查使用电子邮件的用户是否已经存在?
- 28. 如何检查一个实体是否已经存在于永久存储中
- 29. 如何检查样式文件是否已经加载?
- 30. 检查一个项目是否已经存在于一个txt文件中