如何使用pyspark读取orc文件

有两种压缩文件格式供spark使用。一个是实木复合地板，它很容易阅读：如何使用pyspark读取orc文件

from pyspark.sql import HiveContext 
hiveCtx = HiveContext(sc) 
hiveCtx.parquetFile(parquetFile)

但是用于ocr文件。我无法找到一个很好的例子来向我展示如何使用pyspark阅读。

2017-07-03 Howardyan

你是什么意思有没有例子？你是真的搜索ORC，还是改为“ocr”（这是别的）。 https://hortonworks.com/blog/bringing-orc-support-into-apache-spark/ –

对不起，它应该是兽人。由于orc文件位于hdfs上，因此它是 – Howardyan

那么，有两种方式：

星火2.x：

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

星火1.6：

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')

2017-07-03 14:11:17

。我使用hiveCtx.read.orc（“hdfs：// aaa/bbb/ccc”）。消息告诉我：“malformed orc data” 但我使用sql函数： hiveCtx.sql（“select * from ccc”）它的工作原理非常奇怪... – Howardyan

回答