我想训练一个有很多标称属性的数据集。我从一些帖子中注意到,转换名义属性必须将它们转换为重复的二进制特征。正如我所理解的那样,这样做在概念上也会使数据集变得稀疏。我还知道scikit-learn使用稀疏矩阵和一些估计器,因为它更快。但是我也发现一些估计器仍然不接受稀疏矩阵。我的问题是:到目前为止,哪些是不接受稀疏矩阵的?
您可以通过检查docstring来检查scikit-learn中的方法是否支持稀疏矩阵。如果它说
X : {array-like, sparse matrix}
则支持稀疏矩阵输入。当它只显示"类数组"时,表示不支持。