在熊猫数据帧中读取时将"NA"条目解析为 NaN 值

我是熊猫的新手。我已经使用pandas.read_csv加载了CSV。我试图不指定dtype，但是太慢了。由于它是一个非常大的文件，因此我还指定了数据类型。但是，有时在数字列中，它包含" NA"。我已经使用了na_values = ['na']，它会影响我的数据框架吗？我仍然想保留这些行。我的问题是，如果我指定数据类型并添加na_values = ['na']，是否会被扔掉吗？如果是，我如何在不丢失这些NA的情况下保持类似的过程时间？非常感谢！

来自 pd.read_csv docs：

na_values：标量， str， list -like或 dict，默认None

附加识别为NA/NaN的字符串。如果dict通过，则特定的每柱NA 值。默认情况下，以下值解释为nan：''，， ... 'na’，...`。

大胆的重点是我的。这些值不会被抛弃，而是将它们转换为NaN。熊猫足够聪明，可以自动识别这些值，而无需明确说明。

相关内容

最新更新

热门标签：