我有大量数据,其中一些信息丢失(NULL)。我应该在学习过程中跳过这个例子还是做其他事情?
这实际上取决于数据和您认为有意义的内容。如果您认为NULL信息可能是有意义的,那么一种选择是创建一个新的变量来表示具有NULL数据的条目。例如,如果您有像这样具有NULL值的真/假分类数据
1, 0, 1, NULL, NULL, 1, 1, NULL
你可以将其转换为:
1 0 1 0 0 1 1 0 <- true
0 1 0 0 0 0 0 0 <- false
0 0 0 1 1 0 0 1 <- NULL
浮点值也可以执行类似的操作。
当然,如果你认为NULL值没有帮助,你也可以去掉NULL值,或者用有根据的猜测(也许是平均值)代替它们。