我正在使用java spark到数据集。
我需要通过许多exper汇总数据集,以使代码漫长而丑陋。经家有一些常见的逻辑,我可以用循环生成经验表吗?这是代码示例,真实代码具有数百行重复代码:
Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),functions.sum(functions.when(ds.col("date_diff").$less$eq(30).and(ds.col("call_type").isin(callTypeOut)),
ds.col("duration"))).as("caller_call_time_1"),
functions.sum(functions.when(ds.col("date_diff").$less$eq(60)
.and(ds.col("call_type").isin(callTypeOut)),
ds.col("duration"))).as("caller_call_time_2"),
functions.sum(functions.when(ds.col("date_diff").$less$eq(90)
.and(ds.col("call_type").isin(callTypeOut)),
ds.col("duration"))).as("caller_call_time_3"),
functions.sum(functions.when(ds.col("date_diff").$less$eq(120)
.and(ds.col("call_type").isin(callTypeOut)),
ds.col("duration"))).as("caller_call_time_4"),
functions.sum(functions.when(ds.col("date_diff").$less$eq(150)
.and(ds.col("call_type").isin(callTypeOut)),
ds.col("duration"))).as("caller_call_time_5"),
functions.sum(functions.when(ds.col("date_diff").$less$eq(180)
.and(ds.col("call_type").isin(callTypeOut)),
ds.col("duration"))).as("caller_call_time_6"))
我得到了这样的解决方案:
List<Column> exprs = new ArrayList<>();
for (int i = 1; i < 7; i ++ ) {
exprs.add(functions.sum(functions.when(ds.col("date_diff").$less$eq(30*i)
.and(ds.col("call_type").isin(callTypeOut)),
ds.col("duration"))).as("caller_call_time_"+Integer.toString(i));
}
Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),
exprs.toArray(new Column[exprs.size()]));
您可以:
-
创建您的数据框(数据集是一个数据框架,与其他任何内容的数据集相反),然后使用所有其他列,然后在新创建的列上执行聚合。您可以在循环中创建列。
-
构建将在Java中处理您的自定义代码的UDAF(用户定义的聚合函数)。
希望它有帮助...