我想从csv文件创建地板文件。出于测试目的,我有一段代码读取一个文件,并将其转换为熊猫数据帧,然后转换为pyarrow表。此表然后存储在AWS S3上,并希望在表上运行配置单元查询。实木复合地板创建从熊猫数据框转换为pyarrow表不适用于对象dtype
Inputfile中的内容:
YEAR|WORD
2017|Word 1
2018|Word 2
代码:
dataFrame=pd.read_csv(inputFile, sep='|')
print(dataFrame)
print(dataFrame.dtypes)
print(dataFrame.columns)
dataFrame['C1'] = dataFrame['C1'].astype('str')
print(dataFrame.dtypes)
table=pa.Table.from_pandas(dataFrame)#,schema=pa.string())
pq.write_table(table, outputFile)
写入pyarrow表后,我询问了拼花文件,以确保数据良好将存储在S3。然而结果很奇怪:
+--------+--------------+
| YEAR | WORD |
+--------+--------------+
| 2017 | [[email protected] |
| 2018 | [[email protected] |
+--------+--------------+
不知何故int值显示很好,但是object/str值没有被正确转换。
感谢您对此的帮助。
谢谢。
嗨,你会介意https://issues.apache.org打开的问题/ jira/browse/ARROW,我们可以帮助调试吗? –
这是一个跟踪此问题的箭头问题:https://issues.apache.org/jira/browse/ARROW-785 – Jeff
更新了JIRA的更多细节。使用以下版本 – Ash