在输入NN之前处理带有字母的列



我想使用NN实现一个分类算法,但是有些列有复杂的字母数字字符串,所以我只选择了更简单的列来检查。这里是一个例子,一些列的元素我选择……

的几个元素正如你所看到的这些列有A、G、C或T. .等。有些是4个字母的组合,但我现在删除了它。我的计划是将这些字母映射到像1,2,3和4这样的值然后将它们馈送给神经网络。

这个映射可以吗输入到密集的神经网络??或者有没有更好的方法来做这件事

我不会把它映射到像1,2,3这样的整数,因为你错误地给了它们一个特定的顺序或排名,而NN可能会捕捉到这些顺序或排名是重要的,尽管这个排名并不真正存在。

如果您没有高基数(许多唯一值),那么您可以应用One-Hot Encoding。如果基数很高,那么应该使用其他编码技术,否则单热编码器会给数据引入很多维度和稀疏性,这是不受欢迎的。您可以在这里找到其他一些有趣的编码分类变量的方法。

相关内容

  • 没有找到相关文章

最新更新