处理非十进制变量的最佳做法.[ACM KDD 2009 杯]



为了实践,我决定使用神经网络来解决ACM知识发现和数据挖掘特别兴趣小组在2009年杯赛上提出的分类问题(2类)。我发现的问题是数据集包含许多"空"变量,我不确定如何处理它们。此外,出现了第二个问题。如何处理其他非小数,如字符串。您的最佳实践是什么?

大多数方法都需要数值特征,因此分类特征必须转换为计数。 例如,如果实例的属性中存在某个字符串,则其计数为 1,否则为 0。如果它发生不止一次,它的计数会相应增加。从这个角度来看,任何不存在(或您所说的"空")的特征计数为 0。请注意,属性名称必须是唯一的。

最新更新