我在pig脚本中通过一个可执行文件流式传输数据,该可执行文件为我流式传输到它的每一行输入返回一个xml片段。该xml片段恰好跨越多行,我无法控制可执行文件I流式传输给的输出
关于使用Hadoop Pig从多行的文本文件w/每条记录加载数据?,答案是建议编写一个自定义的记录阅读器。问题是,如果你想实现一个从文件中读取的LoadFunc,这很好,但为了能够使用流,它必须实现StreamToPig。StreamToPig允许您一次只读取一行,就我所理解的而言
有人知道如何处理这种情况吗?
如果您完全确定,那么一种选择是在流媒体解决方案内部进行管理。也就是说,你自己构建元组,当你达到你想要的大小时,你会进行处理并返回一个值。一般来说,pig中的evalfocs都有这个问题。