我一直在寻找如何自动化和写入文件到Scrapy(CSV)的Excel。到目前为止,唯一可行的命令是繁琐的,手动的方法:Scrapy |自动化和写入Excel
scrapy crawl myscript -o myscript.csv -t csv
我希望能够每一种格式化成更收集“行”的格式。此外,有什么办法可以使刮板自动化?理想情况下,我希望代码每天运行一次,并且希望能够在有关我的更新的更新时通知我自己。随着更新是一个相关的职位。
我的蜘蛛正在发挥作用,这里是代码:
import scrapy
from scrapy.spiders import XMLFeedSpider
from YahooScrape.items import YahooScrapeItem
class Spider(XMLFeedSpider):
name = "Test"
allowed_domains = ["yahoo.com"]
start_urls = ('https://feeds.finance.yahoo.com/rss/2.0/headline?s=GOOGL',)
itertag = 'item'
def parse_node(self, response, node):
item = {}
item['title'] = node.xpath('title/text()',).extract_first()
item['pubDate'] = node.xpath('link/pubDate/text()').extract_first()
item['link'] = node.xpath('link/text()').extract_first()
item['description'] = node.xpath('description/text()').extract_first()
return item
我知道,要进一步出口/整理我的刮刀,我必须编辑管道设置(至少根据大多数我读过的文章)。
下面是我的pipelines.py代码:
class YahooscrapePipeline(object):
def process_item(self, item, spider):
return item
我如何可以将其设置这样我就可以执行的代码,它会自动地写代码?
更新:我正在使用ScrapingHubs API,它使用shub-module来运行我的蜘蛛。它非常方便,而且易于使用。
您可以在settings.py中启用管道并使用它。也可以使用启动CSV Feed Exporter – Verz1Lka