apache-spark-dataset

11热度

2回答

我想为DataSet中的Row类型编写一个编码器，用于我正在执行的映射操作。本质上，我不懂如何编写编码器。下面是一个地图操作的示例： In the example below, instead of returning Dataset<String>, I would like to return Dataset<Row> Dataset<String> output = dataset1.fl

0热度

1回答

数据类型不匹配，而在火花集转换数据

我创建从一个CSV文件镶木结构用火花： Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parq

0热度

1回答

如何从一个数据框中使用另一个数据框的信息随机选择行

以下我正在尝试Scala-Spark。我对这两种技术都比较陌生，对我来说很裸露。我希望有人能给我一些关于如何解决这个问题的指导，或者提供一些资源来弄清楚我能做些什么。我有一个dateCountDF与计数对应的日期。我想从另一个Dataframe entitiesDF其中dateCountDF.FirstDate<entitiesDF.Date && entitiesDF.Date <= dat

2热度

1回答

通过搜索在Apache的一个数据集的列标题星火的Java

我有类似下面 0 1 2 3 +------+------------+--------------------+---+ |ItemID|Manufacturer| Category |UPC| +------+------------+--------------------+---+ | 804| ael|Brush & Br

1热度

1回答

问题星火的Java

我们目前面临几个问题 1. “org.apache.spark.sql.catalyst.expressions.GeneratedClass $ GeneratedIterator” 增长超过64 KB “ 2的” java .lang.StackOverflowError 第一个问题被报道的”为Apache的火花https://issues.apache.org/jira/browse/SPA

0热度

1回答

如何在BigInts中使用数据集？

尝试，因为我可能，我不能创建具有足够的精度来处理DecimalType(38,0)的情况下类的数据集。我已经试过： case class BigId(id: scala.math.BigInt) 这遇到错误的ExpressionEncoderhttps://issues.apache.org/jira/browse/SPARK-20341 我已经试过： case class BigId(id

2热度

3回答

在Apache Spark中搜索并替换

我们创建了两个数据集语句DataFrame，sentenceDataFrame2，其中应该发生搜索替换。 sentenceDataFrame2存储搜索和替换条款。我们还执行了所有11种类型的连接'inner'，'outer'，'full'，'fullouter'，'leftouter'，'left'，'rightouter'，'right'，'leftsemi'，'leftanti '，'十字'他

1热度

1回答

如何加入两个parquet数据集？

我正在从Java中的Spark中的Parquet文件中加载两个DataSet。我需要创建一个新的作为两者的组合。在常规SQL中，我会加入表格，在某些情况下应用一些条件并创建新表格。有没有什么办法可以在Spark（SQL）中实现这一点？我读过RDD可能的情况，但我并不想将数据写回磁盘。

0热度

2回答

在哪里条件下带有子选择的Spark数据集

我尝试在Spark SQL中重新创建SQL查询。通常我会插入这样一个表： INSERT INTO Table_B ( primary_key, value_1, value_2 ) SELECT DISTINCT primary_key, value_1, value_2 FROM Table_A WHERE NOT

5热度

2回答

如何将整列的大小写更改为小写？