2017-08-30 73 views
0

我是熊猫新手。我已经使用pandas.read_csv加载了csv。我试图不指定dtype,但它太慢了。由于它是一个非常大的文件,我还指定了数据类型。但是,有时在数字列中,它包含“NA”。我用过na_values = ['NA'],会影响我的数据框吗?我仍然想保留这些行。我的问题是如果我指定数据类型并添加na_values = ['NA'],NA会被抛弃吗?如果是的话,我怎么能保持相似的过程时间而不会失去这些na?非常感谢你!在熊猫数据框中读取时将“NA”条目解析为NaN值

+0

加载数据集时,“NA”将被解析为'NaN'('np.nan')。 –

+1

你无法自己测试这个吗? –

+0

我后来做了一个isnull检查,没有找到任何。所以我很困惑。我会再试一次。 – user3062229

回答

2

从文档:

na_values:标量,strlist状,或dict,默认None

附加 字符串识别为NA/NaN。如果dict通过,则具体每列NA 值。默认情况下,以下值被解释为NaN:'', ... 'NA',...`。

大胆重视我的。这些值不会被丢弃,而是被转换为NaN。熊猫足够聪明,可以自动识别这些值,而无需明确说明。