我试图加载它只有两列的TSV文件: PROPERTY_ID & photo_urls熊猫:错误而在一列使用JSON字符串加载TSV文件
对于每个PROPERTY_ID的photo_urls列包含一个 json数组的字符串表示形式,其中每个json对象表示一个图像(一个URL)。
Here(pastbin链接)是我尝试使用Pandas加载的tsv文件的一个小样本。
photos_df = pandas.read_csv('test.tsv')
这引发错误:
ParserError: Error tokenizing data. C error: Expected 49 fields in line 4, saw 84
我猜测这是由于两个原因:
不同PROPERTY_ID■找不同数量的图像/网址/ JSON对象
JSO N字符串格式不正确/错误
我无法弄清楚它到底是什么。
使用read_csv
与参数error_bad_lines=False
不是一个选项,因为我不想丢失任何数据。
子问题:即使有上述两种情况,为什么当两个列确实是字符串格式时,read_csv会抛出一个错误?它如何知道该字符串中的错误?
是,这是您可以在其中预处理情况的数据?或者像Splunk一样的工具?如果你把所有东西都映射到格式良好的JSON中,那么阅读起来很容易。 – boethius
不幸的是,没有。 –