apache-spark

    0热度

    1回答

    我已经做了一个简单的python文件,它想要在Livy.Livy中提交,目前运行在local mode.Also我在livy.conf文件中提到了以下属性。 curl -X POST --data '{"file": "/usr/local/livy/scripts/pi.py"}' -H "Content-Type: application/json" 10.140.178.24:8999/ba

    -1热度

    2回答

    我有一个已经从一些json创建的rdd,rdd中的每个记录都包含键/值对。我RDD的样子: myRdd.foreach(println) {"sequence":89,"id":8697344444103393,"trackingInfo":{"location":"Browse","row":0,"trackId":14170286,"listId":"cd7c2c7a-00f6

    1热度

    2回答

    我想和/或从文件系统中读取HDFS的一些文件,我得到这个异常 Driver stacktrace:] [unread block data] ]org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent f

    -1热度

    1回答

    我有一个数据集是从卡桑德拉火花加载。加载这个数据集后,我将从cassandra中删除一些项目,但我希望我的数据集作为下一次计算的第一个数据集。我用persist(DISK_ONLY)来解决它,但它似乎尽力而为。 如何强制使用火花以避免重新计算? 例如: val dataset:Dataset[Int] = ??? // something from cassandra dataset.persi

    0热度

    2回答

    我需要的列集各种组合,传递给我的SQL查询作为参数 如: Val result=sqlContext.sql(""" select col1,col2,col3,col4,col5,count(col6) from table T1 GROUP BY col1,col2,col3,col4,col5 GROUPING SETS ((col1,col2),(col3,col4),(col4, col

    11热度

    2回答

    我使用的是HDP-2.6.0.3,但我需要Zeppelin 0.8,所以我将它作为独立服务安装。当我运行时: %sql show tables 我没有得到任何回应,当我运行Spark2 SQL命令时,我得到'table not found'。表可以在0.7是齐柏林是HDP的一部分。 任何人都可以告诉我我缺少什么,对于Zeppelin/Spark来看蜂巢? 步骤我执行创建zep0.8如下: m

    0热度

    1回答

    如何使用spark将数据从Oracle数据库导入到dataframe或rdd,然后将此数据写入一些配置单元表? 我有相同的代码: public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("Data transfer test (Oracle -> Hive)").setMa

    0热度

    1回答

    转型我有一个RDD(combinerRDD),关于这一点我在下面加改造 JavaPairRDD<String, Integer> counts = combinerRDD.mapToPair( new PairFunction<Tuple2<LongWritable, Text>, String, Integer>() { String filename;

    0热度

    3回答

    我正在寻找一种方法来选择我的数据框在pyspark中的列。对于第一行,我知道我可以使用df.first(),但不确定列是否在没有列名。 我有5列,并希望通过其中每一个循环。 +----------------+---+---+---+---+---+---+ | _1| _2| _3| _4| _5| _6| _7| +----------------+---+---+---+---+-

    1热度

    1回答

    使用spark java查看对elasticsearch的低写入次数。 下面是使用13.xlarge机ES群集配置 4 instances each have 4 processors. Set refresh interval to -1 and replications to '0' and other basic configurations required for better wr