2
A
回答
5
的文件将被覆盖。这有几个动机:
- “类似报告”用例(计算输入数据的摘要并将结果放在GCS上)似乎比用例更频繁随着管道的每次执行,增量生成数据并将更多数据放到GCS上。
- 如果重新运行管道是幂等(-ish?),那么这很好。例如。如果你在管道中发现了一个错误,你可以修复它并重新运行它,并享受覆盖正确的结果。附加到文件的管道在这个问题上很难处理。
- 不需要为TextIO.Write指定输出分片的数量;即使对于完全相同的流水线和相同的输入数据,它在不同的执行过程中也可能略有不同。在这种情况下追加的语义会非常混乱。
- 据我所知,追加是不可能有效地使用我知道的任何文件系统来实现的,同时保留了原子性和容错保证(例如,即使在面对由于故障而重新执行捆绑)。
此行为将记录在github上显示的SDK的下一个版本中。
相关问题
- 1. 谷歌云数据流输出到卡桑德拉
- 2. NotSerializableException:org.apache.avro.io.DecoderFactory在谷歌云数据流管道
- 3. 谷歌云数据流上的Apache梁
- 4. 谷歌云数据流Python - maxNumWorkers
- 5. 生成使用谷歌云数据流
- 6. 谷歌云数据流:从动态文件名
- 7. 输出附加到文件
- 8. 谷歌数据流VS阿帕奇星火流媒体(无论是在谷歌云或与谷歌Dataproc)
- 9. 谷歌云存储文件附加操作
- 10. 输出流缓冲输出流附加
- 11. 如何谷歌分析数据导出到谷歌表或Excel文件?
- 12. 谷歌云数据流从压缩数据读取数据
- 13. 谷歌云流媒体数据流:错误而获取侧输入
- 14. Ruby替换整个文件而不是附加到它
- 15. 谷歌云数据流(Python):读取和写入.csv文件的函数?
- 16. 谷歌收取的数据转移到谷歌云存储
- 17. 输入/输出错误写入到谷歌云存储桶时
- 18. 替换或附加到链接
- 19. 如何从谷歌云端自动导入数据到谷歌云端
- 20. 将PowerShell输出附加到Excel文件
- 21. 将输出附加到文件?
- 22. 如何将输出附加到文件?
- 23. 附加subprocess.Popen输出到文件?
- 24. 复杂的加入谷歌数据流
- 25. 谷歌应用程序引擎/谷歌云SQL - 检测,如果它是MySQL或谷歌云SQL
- 26. 优化谷歌应用程序脚本替换/附加值
- 27. 从谷歌数据工作室连接到谷歌云数据与SQL Postgres
- 28. 谷歌pubsub到谷歌云存储
- 29. 将数据从谷歌云存储加载到BigQuery
- 30. 谷歌云应用程序到数据库加密,私人或需要保护?
这是否仍然正确@jkff?我很确定,如果它们共享相同数量的碎片,它们只会被覆盖。否则,文件名是不同的,旧的文件保存 – Maximilian
是的,谢谢澄清。如果生成的文件与现有文件冲突,则现有文件将被覆盖,但其他现有文件将保持不变。 – jkff