google-cloud-dataflow

    0热度

    1回答

    我有一堆存储在谷歌云存储上的文本文件(〜1M)。当我读到这些文件到谷歌云数据流的管道的处理,我总是得到以下错误: Total size of the BoundedSource objects returned by BoundedSource.split() operation is larger than the allowable limit 的故障排除页说: You might enc

    0热度

    1回答

    我正在尝试编写源文件存储在GCS中的文本文件。代码运行良好,但不是一个XML文件,而是生成多个XML文件。 (XML文件的数量似乎遵循源文本文件中存在的记录总数)。我在使用'DataflowRunner'时观察了这种情况。 当我在本地运行相同的代码,然后生成两个文件。第一个包含所有具有适当元素的记录,第二个仅包含打开和关闭根元素。 有关这种意外行为发生的任何想法?请在下面找到我使用的代码片段: P

    0热度

    1回答

    我知道当我们实现一个ParDo变换时,我们从数据中获取单个元素(基本上由“\ n”分隔)。但是如果我有一个在我的文件中占据两行的元素呢?我可以运用自己的条件来挑选元素吗?或者是否总是需要在一行中包含元素?

    0热度

    1回答

    我一直在运行批处理作业了一个多星期,现在有DataflowRunner没有问题,但都从今天突然启动的工作开始与以下错误消息失败。工人似乎没有开始,也没有登录堆栈驱动程序。 任何事情,我在这里失踪? Dataflow SDK version: 2.0.0 Submitted job: 2017-08-29_09_43_20-9537473353894635176 2017-08-29 16:44

    0热度

    1回答

    有没有人尝试过这段代码? XmlSource<String> source = XmlSource.<String>from("gs://balajee_test/sample_3.xml") .withRootElement("book") .withRecordElement("author") .withRecordElement("title

    0热度

    1回答

    今晚我的一个批处理作业失败,出现运行时异常。它将数据写入数据存储区,就像今天晚上运行的其他200个作业一样。这一次失败的原因很长,其根源应该是这样的: Caused by: com.google.datastore.v1.client.DatastoreException: I/O error, code=UNAVAILABLE at com.google.datastore.v1.cl

    0热度

    1回答

    我有一个关于goolge数据流的问题。 我正在写一个数据流管道,它从PubSub读取数据,并写入BigQuery,它的工作。 现在,我必须处理晚期数据,我是继优价一些例子,但它不能正常工作,这里是我的代码: pipeline.apply(PubsubIO.readStrings() .withTimestampAttribute("timestamp").fromSubscripti

    1热度

    2回答

    我正在谷歌云数据流中使用Apache Beam模型运行管道,但我无法从8名工作人员扩展它,即使工人的最大数量为32 当我尝试运行相同的流水线工人数量设置为32,它给了我以下警告: Autoscaling: Startup of the worker pool in zone us-central1-f reached 30 workers, but the goal was 32 workers.

    0热度

    1回答

    我在Google云端存储上有超过10万个包含JSON对象的文件和我想创建一个镜像来维护filesytem结构,但是从文件内容中删除了一些字段。 我试图在Google Cloud Dataflow上使用Apache Beam,但它拆分了所有文件,我无法再维护该结构。我正在使用TextIO。 我有的结构是类似reports/YYYY/MM/DD/<filename> 但数据流输出到output_dir

    2热度

    1回答

    我想知道我是否可以直接在Google Dataflow平台中缓存数据集(例如在Spark中缓存RDD)。 如果没有这样的功能,Dataflow如何在应用程序中挑选热门数据集,特别是如果您有多个热门数据集,并且您想根据数据集的重要性优先缓存?