整数变量的Scikit-Learn解释



经过多年的SAS/SPSS产品,我才开始使用Scikit-Learn。我对Scikit-Learn和Pandas的能力感到惊讶,但是我自己不知道一件事。让我们假设我的培训数据是由整数建立的,其中一些编码分类值。有什么办法可以控制如何通过树或任何合奏树(例如:ExtratreesClassifier)Algorihm解释变量?正确的方法是将变量类型从int更改为对象,还是我可能会学到一个常见的技巧?

谢谢Dealah

对于低心电图分类特征,使用一式式编码特征扩展可能是合适的。看看:

  • http://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features
  • http://scikit-learn.org/stable/modules/feature_extraction.html#loading-features-forom-from-dicts

对于高基数分类功能,您可以将整数编码用于ExtratreesClassifier。即使该算法将它们视为常规的连续变量,但在实践中似乎不会对预测准确性产生过多影响。

编辑:在任何情况下,Scikit-Learn都期望所有输入功能的均匀浮点类型编码。对象dtype绝不是有效的输入类型。

相关内容

  • 没有找到相关文章

最新更新