ApachePig-如何维护一个分布式查找表以供我的python UDF访问



在我的Pig脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名称。我有一个文本文件(约10k条记录)是用这个映射从数据库创建的。但我不确定如何将这个文本文件分发到pig中,并在运行时访问它们。请帮忙。。!!

这是使用Pig的片段复制连接算法的完美用例。您可以将查找表加载为Pig关系,并将其与实际数据连接起来。

A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';

请注意,您想要加载到内存中的表应该位于连接的右侧,如我上面所示。

相关内容

  • 没有找到相关文章

最新更新