在熊猫数据帧中读取时将"NA"条目解析为 NaN 值



我是熊猫的新手。我已经使用pandas.read_csv加载了CSV。我试图不指定dtype,但是太慢了。由于它是一个非常大的文件,因此我还指定了数据类型。但是,有时在数字列中,它包含" NA"。我已经使用了na_values = ['na'],它会影响我的数据框架吗?我仍然想保留这些行。我的问题是,如果我指定数据类型并添加na_values = ['na'],是否会被扔掉吗?如果是,我如何在不丢失这些NA的情况下保持类似的过程时间?非常感谢!

来自 pd.read_csv docs:

na_values:标量, strlist -like或 dict,默认None

附加 识别为NA/NaN的字符串。如果dict通过,则特定的每柱NA 值。默认情况下,以下值解释为nan:'',, ... 'na’,...`。

大胆的重点是我的。这些值不会被抛弃,而是将它们转换为NaN。熊猫足够聪明,可以自动识别这些值,而无需明确说明。

最新更新