我有500个链接要下载,并且想要通过例如10个项目对它们进行批处理。luigi批处理模块用于直批处理任务
这个伪代码是怎么样的?
class BatchJobTask(luigi.Task)
items = luigi.Parameter()
def run(self):
listURLs = []
with ('urls_chunk', 'r') as urls
for line in urls:
listURLs.append('http://ggg'+line+'.org')
10_urls = listURLs[0:items] #10 items here
for i in 10_urls:
req = request.get(url)
req.contents
def output(self):
return self.LocalTarger("downloaded_filelist.txt")
class BatchWorker(luigi.Task)
def run(self)
# Here I should run BatchJobTask from 0 to 10, next 11 - 21 new etc...
会是怎样?
你的网址列表在哪里? – MattMcKnight
我已经更新了第一篇文章 – GarfieldCat
我的意思是这个URL列表存储在哪里?在一个队列中,一个数据库,一个文件?你需要做的是弄清楚那件东西有多少,然后从那里建立你的大块。我将在下面举一个例子,但由于您未指定问题的相关部分,因此它不太可能与您的问题相关。 – MattMcKnight