apache-spark

0热度

1回答

我已经做了一个简单的python文件，它想要在Livy.Livy中提交，目前运行在local mode.Also我在livy.conf文件中提到了以下属性。 curl -X POST --data '{"file": "/usr/local/livy/scripts/pi.py"}' -H "Content-Type: application/json" 10.140.178.24:8999/ba

-1热度

2回答

如何将JSON的RDD转换为Dataframe？

我有一个已经从一些json创建的rdd，rdd中的每个记录都包含键/值对。我RDD的样子： myRdd.foreach(println) {"sequence":89,"id":8697344444103393,"trackingInfo":{"location":"Browse","row":0,"trackId":14170286,"listId":"cd7c2c7a-00f6

1热度

2回答

未读块数据，同时从Java星火阅读

我想和/或从文件系统中读取HDFS的一些文件，我得到这个异常 Driver stacktrace:] [unread block data] ]org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent f

-1热度

1回答

如何强制spark以避免数据集重新计算？

我有一个数据集是从卡桑德拉火花加载。加载这个数据集后，我将从cassandra中删除一些项目，但我希望我的数据集作为下一次计算的第一个数据集。我用persist(DISK_ONLY)来解决它，但它似乎尽力而为。如何强制使用火花以避免重新计算？例如： val dataset:Dataset[Int] = ??? // something from cassandra dataset.persi

0热度

2回答

SPARK SQL GROUPING SETS

我需要的列集各种组合，传递给我的SQL查询作为参数如： Val result=sqlContext.sql(""" select col1,col2,col3,col4,col5,count(col6) from table T1 GROUP BY col1,col2,col3,col4,col5 GROUPING SETS ((col1,col2),(col3,col4),(col4, col

11热度

2回答

如何获得Zeppelin的独立服务以查看Hive？

我使用的是HDP-2.6.0.3，但我需要Zeppelin 0.8，所以我将它作为独立服务安装。当我运行时： %sql show tables 我没有得到任何回应，当我运行Spark2 SQL命令时，我得到'table not found'。表可以在0.7是齐柏林是HDP的一部分。任何人都可以告诉我我缺少什么，对于Zeppelin/Spark来看蜂巢？步骤我执行创建zep0.8如下： m

0热度

1回答

使用Spark从Oracle到配置单元的Tranfser数据使用Spark

如何使用spark将数据从Oracle数据库导入到dataframe或rdd，然后将此数据写入一些配置单元表？我有相同的代码： public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("Data transfer test (Oracle -> Hive)").setMa

0热度

1回答

结果在一个空RDD

转型我有一个RDD（combinerRDD），关于这一点我在下面加改造 JavaPairRDD<String, Integer> counts = combinerRDD.mapToPair( new PairFunction<Tuple2<LongWritable, Text>, String, Integer>() { String filename;

0热度

3回答

在Pyspark Dataframe中选择列

我正在寻找一种方法来选择我的数据框在pyspark中的列。对于第一行，我知道我可以使用df.first()，但不确定列是否在没有列名。我有5列，并希望通过其中每一个循环。 +----------------+---+---+---+---+---+---+ | _1| _2| _3| _4| _5| _6| _7| +----------------+---+---+---+---+-

1热度

1回答

Spark +弹性搜索写入性能问题

使用spark java查看对elasticsearch的低写入次数。下面是使用13.xlarge机ES群集配置 4 instances each have 4 processors. Set refresh interval to -1 and replications to '0' and other basic configurations required for better wr