Hy,
我有以下问题。我有两个数据集,其中一个包含以下结构的数据:
A1 B2 C1 D1
A1 B2 C1 D3
A3 B1 C2 D2
etc
另一个包含这些对象的值:
A1=x
B2=y
C1=z
D1=q
etc
我如何将数据分组,以便在一个地方有A1=x B2=y C1=z D1=q来计算它们?
谢谢!
如果第二个数据集很小,可以将其放入分布式缓存中。
您可以在映射器中逐行读取第一个数据集&然后使用来自分布式高速缓存的输入来获得值,然后发出键值对,如<"A1=x B2=y C1=z D1=q",1>