0
有两种压缩文件格式供spark使用。一个是实木复合地板,它很容易阅读:如何使用pyspark读取orc文件
from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)
但是用于ocr文件。我无法找到一个很好的例子来向我展示如何使用pyspark阅读。
有两种压缩文件格式供spark使用。一个是实木复合地板,它很容易阅读:如何使用pyspark读取orc文件
from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)
但是用于ocr文件。我无法找到一个很好的例子来向我展示如何使用pyspark阅读。
那么,有两种方式:
星火2.x:
orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')
星火1.6:
df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')
。我使用hiveCtx.read.orc(“hdfs:// aaa/bbb/ccc”)。 消息告诉我:“malformed orc data” 但我使用sql函数: hiveCtx.sql(“select * from ccc”) 它的工作原理非常奇怪... – Howardyan
你是什么意思有没有例子?你是真的搜索ORC,还是改为“ocr”(这是别的)。 https://hortonworks.com/blog/bringing-orc-support-into-apache-spark/ –
对不起,它应该是兽人。由于orc文件位于hdfs上,因此它是 – Howardyan