apache-spark-sql

    2热度

    1回答

    我想用scala来访问spark应用程序中的HIVE。 我的代码: val hiveLocation = "hdfs://master:9000/user/hive/warehouse" val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]").set("spark.sql.warehouse.dir

    0热度

    2回答

    是不是Hive和SparkSQL不支持datetime的数据类型? 从我阅读的参考文献中,他们似乎只支持date和timestamp。前者不是时间分量(即小时,分钟和秒);后者具有很高的精确度(低至毫秒),但并不是人类可读的(它总是需要通过from_unixtime()或date_format()进行转换,结果将是字符串,而不是datetime类型)。 相比之下,其他数据库系统(如MySQL)具有

    5热度

    1回答

    假设我们有以下的文本文件(df.show()命令的输出): +----+---------+--------+ |col1| col2| col3| +----+---------+--------+ | 1|pi number|3.141592| | 2| e number| 2.71828| +----+---------+--------+ 现在我想读/解析它作为一个数据帧/

    0热度

    2回答

    我想这是很容易... 在蜂巢/ SparkSQL,我该如何转换unix时间戳[注1]为timestamp 数据类型? (注1:也就是说,自1970年1月1日秒/分的毫秒数) 我想from_unixtime()会做到这一点,但它给回一个字符串 ,而不是一个时间戳。以下实验说明了该问题 步骤0:制备 select from_unixtime(1508673584) as fut; 结果:

    1热度

    1回答

    我正在用spark.wholeTextFiles()处理一个400MB的文件,并且我一直收到内存不足错误。我第一次使用这个API的文件夹总共有40MB,我想知道我的代码是否适用于大文件,这是大文件的来源。 这是配置,我想我提供了足够的RAM堆,但仍然没有运气,我只是阅读的文件夹,然后写下来与 files.saveAsTextFile("data/output/no") 和命令是 spark-s

    0热度

    1回答

    读取Spark文档的第一个函数,它提到ignoreNulls会得到第一个非空值。 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.expressions.{Window, WindowSpec} object tmp {

    1热度

    1回答

    只选择每n个元素减少星火据帧的大小 I V有一个org.apache.spark.sql.Dataframe = [t: double, S: long] 现在我想通过每2元,以减少据帧,与val n=2 结果应该是 你会如何解决这个问题? 我尝试了插入第三列并使用模,但我无法解决它。

    0热度

    1回答

    我使用下面的代码来读取Teradata的数据,但收到错误 val jdbcDF = spark.read .format("jdbc") .option("url",s"jdbc:teradata://${TeradataDBHost}/database=${TeradataDBDatabase}") .option("dbtable", TeradataDBData

    0热度

    1回答

    优化在基于Yarn的群集上部署的Spark Jobs的最佳方式是什么? 。 寻找基于配置而非代码级别的更改。我的问题是经典设计级别的问题,应该使用什么方法来优化Spark Streaming或Spark SQL上开发的作业。

    1热度

    2回答

    我有一个名为df的pyspark数据框。 ONE LINE EXAMPLE: df.take(1) [Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")] 我有假期一天的清单: holydays=[u'2016-12-25',u'2016-12-08'....] 我想改用day_type为“HOLIDAY”如果“数据”是holyd