将 Scala 计数矢量器输出转换为 libsvm 格式



嗨,我能建议从scala countvectorizer输出的映射:([label, (nVocab, [i1, i2, ...], [c1, c2, ...]))到libsvm格式: (label, : : ...) ?

如果您将输入作为字符串,对于初学者来说,我不确定在哪里拆分以获取字段。

或者,是否有用于此的 scala 实用程序?谢谢千维德

我弄清楚了这一点。countVectorizer 输出可以转换为稀疏 Vecor 数据类型,该数据类型具有 [size, [indices], [values]]。索引和值数组可以压缩并以 libsvm 格式输出。

val countVec = vec(1).asInstanceOf[SparseVector]

经过进一步探索,事实证明我不需要这种转换。我可以使用classLabel和sparseVector创建一个标记点,并直接传递给机器学习对象。

谢谢千维德

最新更新