在熊猫数据框中读取时将“NA”条目解析为NaN值

我是熊猫新手。我已经使用pandas.read_csv加载了csv。我试图不指定dtype，但它太慢了。由于它是一个非常大的文件，我还指定了数据类型。但是，有时在数字列中，它包含“NA”。我用过na_values = ['NA']，会影响我的数据框吗？我仍然想保留这些行。我的问题是如果我指定数据类型并添加na_values = ['NA']，NA会被抛弃吗？如果是的话，我怎么能保持相似的过程时间而不会失去这些na？非常感谢你！在熊猫数据框中读取时将“NA”条目解析为NaN值

来源

2017-08-30 user3062229

加载数据集时，“NA”将被解析为'NaN'（'np.nan'）。 –

你无法自己测试这个吗？ –

我后来做了一个isnull检查，没有找到任何。所以我很困惑。我会再试一次。 – user3062229

从文档：

na_values：标量，str，list状，或dict，默认None

附加字符串识别为NA/NaN。如果dict通过，则具体每列NA 值。默认情况下，以下值被解释为NaN：''， ... 'NA'，...`。

大胆重视我的。这些值不会被丢弃，而是被转换为NaN。熊猫足够聪明，可以自动识别这些值，而无需明确说明。

来源

2017-08-30 23:22:57

在熊猫数据框中读取时将“NA”条目解析为NaN值

回答

相关问题