Hadoop中的数据分组



Hy,

我有以下问题。我有两个数据集,其中一个包含以下结构的数据:

A1 B2 C1 D1
A1 B2 C1 D3
A3 B1 C2 D2
etc

另一个包含这些对象的值:

A1=x
B2=y
C1=z
D1=q
etc

我如何将数据分组,以便在一个地方有A1=x B2=y C1=z D1=q来计算它们?

谢谢!

如果第二个数据集很小,可以将其放入分布式缓存中。

您可以在映射器中逐行读取第一个数据集&然后使用来自分布式高速缓存的输入来获得值,然后发出键值对,如<"A1=x B2=y C1=z D1=q",1>

相关内容

  • 没有找到相关文章

最新更新