在 Java 中为 Apache Spark MLlib 构建 LabeledPoint of Features 的最佳

我正在准备包含 Id（标签）和关键字（特征）的数据，以将它们传递给 Java 中的 MLlib 算法。我的关键字是用逗号分隔的字符串。我的目标是使用多类分类算法来预测 id。问题是，如何构建标记点向量？

我在下面尝试了这种转换，但我的感知率很低（30%）。值得一提的是，当我使用自己的 KNN 分类代码（纯 java）时，我得到了超过 70% 的精度。

特征变形：

        Tokenizer tokenizer = new Tokenizer().setInputCol("keywords")
                .setOutputCol("words");
        DataFrame wordsData = tokenizer.transform(df);
        wordsData.show();
        int numFeatures = 35;
        HashingTF hashingTF = new HashingTF().setInputCol("words")
                .setOutputCol("rawFeatures").setNumFeatures(numFeatures);
        DataFrame featurizedData = hashingTF.transform(wordsData);
        //featurizedData.show();
        featurizedData.cache();
        IDF idf = new IDF().setInputCol("rawFeatures").setOutputCol(
                "features");
        IDFModel idfModel = idf.fit(featurizedData);
        DataFrame rescaledData = idfModel.transform(featurizedData);
        JavaRDD<Row> rescaledRDD = rescaledData.select("features", "id")
                .toJavaRDD();
        JavaRDD<LabeledPoint> test = rescaledRDD
                .map(new MakeLabledPointRDD());

这是将RDD行还原为具有稀疏向量的标记点的正确方法吗？我是否需要计算关键字并使用计数矢量化器？否则构建它的最佳方法是什么？

public static class MakeLabledPointRDD implements
        Function<Row, LabeledPoint> {
    @Override
    public LabeledPoint call(Row r) throws Exception {
        Vector features = r.getAs(0); //keywords in RDD
        Integer str = r.getInt(1); //id in RDD
        Double label = (double) str;
        LabeledPoint lp = new LabeledPoint(label, features);
        return lp;
    }
}

你的MakeLabledPointRDD似乎是正确的。但是，TFIDF 转染似乎是在行级别工作的局部转染。这意味着您获得的权重实际上是针对标识的每个实例的

。

您需要做的就是在创建 TFIDF 向量之前按 ID 对行进行分组，即您的 df 变量应该只包含一个行 pro ID。

相关内容

最新更新

热门标签：