3
很多时候,我下载的文件在文件名中有一个日期。在Airflow中使用参数的示例?
csat_surveys_2017_03_05.csv
03062017_roster.csv
我的代码单独处理这个问题。
- 比较在处理的文件清单,其中应该存在的预期日期的日期(根据切片的文件名)(某些日期范围,直到当前日期)
- 对于每一个我处理文件,添加文件名数据库表和只处理还没有被添加到表
我可以(也应该I)使用气流计划日期,以取代其编写这个逻辑需要新的文件吗?每天,我的任务都会按计划进行。我把这个计划的日期(可能减去1天),并将该值作为参数传递,作为要读取的文件名的一部分(在pandas中)。如果是这样,我可以请看一个我可以用作模板的清晰示例吗?
这是一个更好的方法,并且如果文件丢失或延迟了几天会覆盖我(我希望任务失败,然后继续尝试每一天,直到它成功或直到我注意到它并可以向客户提出问题)?