熊猫 - 阅读 CSV - dtype='string'、dtype=str 和 dtype='object' 之间的区别



当将CSV文件读取到panda中时,在设置dtype时,下面三个选项之间有区别吗?

选项1

df = pd.read_csv('file.csv', dtype='string')

选项2

df = pd.read_csv('file.csv', dtype=str)

选项3

df = pd.read_csv('file.csv', dtype='object')

选项2和3似乎比选项1快得多(我在一个有30000行500列的CSV中阅读(,这表明这些选项的工作方式不同。然而,我找不到任何文件表明为什么会出现这种情况——请有人解释一下?

pandas.read_csv文档中Parameters部分的dtype内容明确指出

">使用str对象以及适当的na_values设置来保留和不解释dtype";。

这种解释会产生额外的负担,例如性能损失,尤其是对于具有大尺寸的数据帧。

最新更新