google-cloud-dataflow

0热度

1回答

解决apache波束管道导入错误[BoundedSource对象大于允许的限制]

我有一堆存储在谷歌云存储上的文本文件（〜1M）。当我读到这些文件到谷歌云数据流的管道的处理，我总是得到以下错误： Total size of the BoundedSource objects returned by BoundedSource.split() operation is larger than the allowable limit 的故障排除页说： You might enc

0热度

1回答

通过Apache Beam写入XML时生成多个文件

我正在尝试编写源文件存储在GCS中的文本文件。代码运行良好，但不是一个XML文件，而是生成多个XML文件。（XML文件的数量似乎遵循源文本文件中存在的记录总数）。我在使用'DataflowRunner'时观察了这种情况。当我在本地运行相同的代码，然后生成两个文件。第一个包含所有具有适当元素的记录，第二个仅包含打开和关闭根元素。有关这种意外行为发生的任何想法？请在下面找到我使用的代码片段： P

0热度

1回答

processElement（）中的拾取元素 - Apache Beam

我知道当我们实现一个ParDo变换时，我们从数据中获取单个元素（基本上由“\ n”分隔）。但是如果我有一个在我的文件中占据两行的元素呢？我可以运用自己的条件来挑选元素吗？或者是否总是需要在一行中包含元素？

0热度

1回答

阿帕奇梁Dataflow工作开始与失败：工作流程失败

我一直在运行批处理作业了一个多星期，现在有DataflowRunner没有问题，但都从今天突然启动的工作开始与以下错误消息失败。工人似乎没有开始，也没有登录堆栈驱动程序。任何事情，我在这里失踪？ Dataflow SDK version: 2.0.0 Submitted job: 2017-08-29_09_43_20-9537473353894635176 2017-08-29 16:44

0热度

1回答

无法使用XmlSource读取存储在GCS Bucket中的XML文件

有没有人尝试过这段代码？ XmlSource<String> source = XmlSource.<String>from("gs://balajee_test/sample_3.xml") .withRootElement("book") .withRecordElement("author") .withRecordElement("title

0热度

1回答

Google Dataflow将不足的数据写入数据存储区

今晚我的一个批处理作业失败，出现运行时异常。它将数据写入数据存储区，就像今天晚上运行的其他200个作业一样。这一次失败的原因很长，其根源应该是这样的： Caused by: com.google.datastore.v1.client.DatastoreException: I/O error, code=UNAVAILABLE at com.google.datastore.v1.cl

0热度

1回答

Google dataflow 2.0 pubsub处理程序后期数据

我有一个关于goolge数据流的问题。我正在写一个数据流管道，它从PubSub读取数据，并写入BigQuery，它的工作。现在，我必须处理晚期数据，我是继优价一些例子，但它不能正常工作，这里是我的代码： pipeline.apply(PubsubIO.readStrings() .withTimestampAttribute("timestamp").fromSubscripti

1热度

2回答

自动调节：无法达到区域中工作区域的调整大小目标us-central1 -f

我正在谷歌云数据流中使用Apache Beam模型运行管道，但我无法从8名工作人员扩展它，即使工人的最大数量为32 当我尝试运行相同的流水线工人数量设置为32，它给了我以下警告： Autoscaling: Startup of the worker pool in zone us-central1-f reached 30 workers, but the goal was 32 workers.

0热度

1回答

如何使用Dataflow在GCS上自动编辑超过100k个文件？

我在Google云端存储上有超过10万个包含JSON对象的文件和我想创建一个镜像来维护filesytem结构，但是从文件内容中删除了一些字段。我试图在Google Cloud Dataflow上使用Apache Beam，但它拆分了所有文件，我无法再维护该结构。我正在使用TextIO。我有的结构是类似reports/YYYY/MM/DD/<filename> 但数据流输出到output_dir

2热度

1回答

缓存数据流中的数据集

我想知道我是否可以直接在Google Dataflow平台中缓存数据集（例如在Spark中缓存RDD）。如果没有这样的功能，Dataflow如何在应用程序中挑选热门数据集，特别是如果您有多个热门数据集，并且您想根据数据集的重要性优先缓存？