我找到了 2 种替换 python 中 nan 值的方法,一个使用 sklearn 的 imputer 类,另一个使用 df.fillnan()后者似乎很容易,代码更少。但效率明智哪个更好。谁能解释每个用例。?
我觉得估算类有它自己的好处,因为您可以简单地提及平均值或中位数来执行一些操作,这与需要提供值的 fillna 不同。但是在估算中,您需要拟合和转换数据集,这意味着更多的代码行。但它可能会给你比fillna更好的速度,但除非真的大数据集,否则没关系。
但是菲尔娜有一些非常酷的东西。您甚至可以使用有时可能需要的自定义值填充 na。这使得 fillna 更好的恕我直言,即使它可能会执行得更慢。