spark-dataframe

    0热度

    1回答

    有没有办法采用以下两个数据框并通过产生下面输出的col0字段将它们连接起来? // dataframe1 val df1 = Seq( (1, 9, 100.1, 10), ).toDF("pk", "col0", "col1", "col2") // dataframe2 val df2 = Seq( (1, 9 "a1", "b1"), (2, 9 "a2",

    1热度

    1回答

    我有一个数据帧(input_dataframe),它看起来像如下: id test_column 1 0.25 2 1.1 3 12 4 test 5 1.3334 6 .11 我想增加一列结果,里面放值如果test_column具有十进制值和如果test_column具有任何其他值。数据类型test_column是字符串。以下是预期输出: id tes

    0热度

    1回答

    我调查一个Spark SQL作业(火花1.6.0),其表现不佳的原因横跨200个分区严重偏斜数据偏斜,大部分数据是1个分区: 什么我想知道...是否有Spark界面中的任何内容帮助我了解有关数据如何分区的更多信息?从看这个我不知道哪些列的数据框分区。我怎么能找到这个? (除了查看代码 - 我想知道日志和/或UI中是否有任何内容可以帮助我)? 其他细节,这是使用Spark的数据帧API,Spark版

    0热度

    1回答

    这是怎么我在火花数据帧使用UDF .. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ SparkConf, SparkContext } import java.sql.{Date, Ti

    0热度

    1回答

    。 读取的输入序列文件 sqlcontext.read.json()来转换成数据帧从数据帧和缓存以上 选择子集的数据。 我面临的问题是,当火花到达第2步时,它似乎触发了操作,因此读取输入数据并创建数据帧。 但是当我到达第3步,因为它实现了一个缓存触发动作来实现DF,它再次读取输入数据,因此浪费了两次读输入数据的时间。 我不想缓存输入数据。 如何避免两次读取输入数据?

    0热度

    2回答

    请在下面找到代码并让我知道如何将列名更改为小写。我尝试过使用ColumnRename,但是我必须为每列执行并输入所有列名称。我只是想在列上做,所以我不想提及所有列名称,因为它们有太多。 斯卡拉版本:2.11 星火:2.2 import org.apache.spark.sql.SparkSession import org.apache.log4j.{Level, Logger} import

    0热度

    1回答

    我使用Spark 2.1和Cassandra(3.9)作为数据源。 C *有一个有50列的大表,对我的用例来说这不是一个好的数据模型。所以我为每个传感器创建了拆分表以及分区键和集群键列。 All sensor table ----------------------------------------------------- | Device | Time | Sensor1 | Sens

    -1热度

    1回答

    我有两个数据集, 数据集1如下 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^|

    1热度

    2回答

    我需要实施星火下面的SQL逻辑DataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1; 我输入DataFrame是如下: val dataset1 = S

    0热度

    1回答

    正确的十进制数我有一个数据帧(input_dataframe),它看起来像如下: id test_column 1 0.25 2 1.1 3 12 4 test 5 1.3334 6 12.0 我想增加一列结果,把值如果test_column有一个十进制值,如果test_column具有任何其他值,则为0。 test_column的数据类型是字符串。下面是