我正在使用MALLET进行文本分类(使用朴素贝叶斯(,我知道有这个FeatureSequence2FeatureVector((方法用于创建可用作管道一部分的特征向量。我的问题是,当我们使用没有参数的 FeatureSequence2FeatureVector(( 和 FeatureSequence2FeatureVector(布尔 x(时,实现了哪种加权模式。对于第二个,x=TRUE 应该导致伯努利朴素贝叶斯,我想。但是没有参数和 x=FALSE 版本呢?
默认情况下,FeatureSequence2FeatureVector
会将特征值设置为原始特征计数。例如,字符串"狗猫狗"将映射到
{ "dog": 2.0, "cat": 1.0 }
将true
作为参数传递将导致
{ "dog" 1.0, "cat": 1.0 }