小贝子编程

是否可以使用Pig流(StreamToPig)将多行处理为单个输入元组

本文关键字：处理单个输元组可以使 Pig StreamToPig 是否 hadoop mapreduce apache-pig
更新时间 : 2023-08-28
英文 : Is it possible to use Pig streaming (StreamToPig) in a way that handles multiple lines as a single input tuple?

我在pig脚本中通过一个可执行文件流式传输数据，该可执行文件为我流式传输到它的每一行输入返回一个xml片段。该xml片段恰好跨越多行，我无法控制可执行文件I流式传输给的输出

关于使用Hadoop Pig从多行的文本文件w/每条记录加载数据？，答案是建议编写一个自定义的记录阅读器。问题是，如果你想实现一个从文件中读取的LoadFunc，这很好，但为了能够使用流，它必须实现StreamToPig。StreamToPig允许您一次只读取一行，就我所理解的而言

有人知道如何处理这种情况吗？

如果您完全确定，那么一种选择是在流媒体解决方案内部进行管理。也就是说，你自己构建元组，当你达到你想要的大小时，你会进行处理并返回一个值。一般来说，pig中的evalfocs都有这个问题。

相关内容