Spark sql select and reduce in Java

所以，我有一个名为UserBehavior的类，如下所示：

public class User_Behavior {
private String userName;
private String itemId;
private double bhvCnt;}

我从数据集创建了一个数据集，想要选择 itemId 和 bhvCnt，然后减少所有具有相同 itemId 的 bhvCnt，我使用 Java，所以我编写了如下代码：

Dataset<Row> selected=dataset.select("itemId","bhvCnt");
    selected.reduce(new ReduceFunction<Row>() {
        @Override
        public Row call(Row v1, Row v2) throws Exception {
            return new Row(v1.getAs("itemId"),v1.getDouble(1)+v2.getDouble(1));
        }
    });

但是我的IDE暗示我行是抽象的。

编写我想要的代码的正确方法是什么？

您可以在"itemId"列上使用groupBy，在

"bhvCnt"列上使用sum，如下所示。

import static org.apache.spark.sql.functions.col;
Dataset<Row> ds = selected.groupBy(col("itemId")).sum("bhvCnt");
ds.show(false);

编辑

import static org.apache.spark.sql.functions.col;
import static org.apache.spark.sql.functions.sum;
Dataset<Row> ds = selected.groupBy(col("itemId")).agg(sum("bhvCnt").as("sum")).sort(col("sum"));
ds.show(false);

相关内容

最新更新

热门标签：