我的输入数据样本看起来像这样(国家,区域,温度)
Ind,Z1,10
Jap,Z2,20
Ind,Z1,30
Ind,Z2,10
Jap,Z1,20
要求是汇总各个区域的温度。
输出应该像
Ind,Z1,40
Ind,Z2,10
Jap,Z1,20
....等等我知道我们可以简单地过滤掉国家并使用 reduceByKey(区域是关键)汇总每个区域的温度,但我不想这样做。
我们如何使用RDD或数据帧来实现这一点?因为我们的数据应该根据国家(区域,温度)进行评估
我不确定如何使用键值对并为国家/地区评估它们。
在原型
保罗建议((k1,k2),v)之后@the这很简单
val thirdRDD = baseRDD.map(x => x.split(","))
.map(x => ((x(0), x(1)),x(2).trim().toInt))
.reduceByKey(_+_)
谢谢!