嗨,我能建议从scala countvectorizer输出的映射:([label, (nVocab, [i1, i2, ...], [c1, c2, ...]))到libsvm格式: (label, : : ...) ?
如果您将输入作为字符串,对于初学者来说,我不确定在哪里拆分以获取字段。
或者,是否有用于此的 scala 实用程序?谢谢千维德
我弄清楚了这一点。countVectorizer 输出可以转换为稀疏 Vecor 数据类型,该数据类型具有 [size, [indices], [values]]。索引和值数组可以压缩并以 libsvm 格式输出。
val countVec = vec(1).asInstanceOf[SparseVector]
经过进一步探索,事实证明我不需要这种转换。我可以使用classLabel和sparseVector创建一个标记点,并直接传递给机器学习对象。
谢谢千维德