pyspark：减小JSON变量的大小

我想分析一个包含Twitter API数据的JSON文件。该文件为2GB，因此需要很长时间才能加载或试图运行任何分析。pyspark：减小JSON变量的大小

所以在pyspark我加载它：

df = sqlContext.read.json('/data/statuses.log.2014-12-30.gz')

这大约需要20分钟一样任何进一步的分析，所以我想看看数据集的只是一小部分，所以我可以快速测试我的脚本和容易。我试图

df = df.head(1000)

但这似乎以某种方式改变数据集，所以当我尝试

print(df.groupby('lang').count().sort(desc('count')).show())

我得到的错误

AttributeError: 'list' object has no attribute 'groupby'

有没有什么办法可以减少的大小数据，所以我可以随身携带，无需每次都等待年龄？

2017-05-09 MelesMeles

如果加载需要时间，尝试当你'read.json'指定架构。不指定模式使得它扫描数据以找出数据类型可能是什么，这可以解释为什么它需要很长时间。 – Pushkr

解决它：

df = df.limit(1000)

2017-05-09 12:43:05 MelesMeles

回答