2017-07-03 1130 views
0

有两种压缩文件格式供spark使用。一个是实木复合地板,它很容易阅读:如何使用pyspark读取orc文件

from pyspark.sql import HiveContext 
hiveCtx = HiveContext(sc) 
hiveCtx.parquetFile(parquetFile) 

但是用于ocr文件。我无法找到一个很好的例子来向我展示如何使用pyspark阅读。

+0

你是什么意思有没有例子?你是真的搜索ORC,还是改为“ocr”(这是别的)。 https://hortonworks.com/blog/bringing-orc-support-into-apache-spark/ –

+0

对不起,它应该是兽人。由于orc文件位于hdfs上,因此它是 – Howardyan

回答

0

那么,有两种方式:

星火2.x

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned') 

星火1.6

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned') 
+0

。我使用hiveCtx.read.orc(“hdfs:// aaa/bbb/ccc”)。 消息告诉我:“malformed orc data” 但我使用sql函数: hiveCtx.sql(“select * from ccc”) 它的工作原理非常奇怪... – Howardyan