在 Spark 中计算多个元素或键值



我的输入数据样本看起来像这样(国家,区域,温度)

Ind,Z1,10
Jap,Z2,20
Ind,Z1,30
Ind,Z2,10
Jap,Z1,20

要求是汇总各个区域的温度。

输出应该像

Ind,Z1,40
Ind,Z2,10
Jap,Z1,20

....等等我知道我们可以简单地过滤掉国家并使用 reduceByKey(区域是关键)汇总每个区域的温度,但我不想这样做。

我们如何使用RDD或数据帧来实现这一点?因为我们的数据应该根据国家(区域,温度)进行评估

我不确定如何使用键值对并为国家/地区评估它们。

在原型

保罗建议((k1,k2),v)之后@the这很简单

val thirdRDD = baseRDD.map(x => x.split(","))
                      .map(x => ((x(0), x(1)),x(2).trim().toInt))
                      .reduceByKey(_+_)

谢谢!

相关内容

  • 没有找到相关文章

最新更新