是否可以使用 hdfs2FileSink 运算符以 ORC 格式写入 IBM 信息圈流中的 HDFS 或任何其他方式



是否可以在 IBM 信息圈流中使用 hdfs2FileSink 运算符以 ORC 格式写入

不,目前无法使用 HDFS2FileSink 运算符。它仅支持文本或二进制。

streamsx.parquet 工具包支持写入 Parquet。

否则,您必须创建自己的 Java 运算符来接收数据并使用 ORC API 写入数据。

创建 Java 运算符相当简单,如此视频所示。Java 运算符开发指南可以引导您完成整个过程。具体请参阅编写接收器运算符。

创建新的 Java 运算符后,在进程方法中添加要写入 ORC API 的代码:

  @Override
public void process(StreamingInput<Tuple> stream, Tuple tuple)
        throws Exception {
    // TODO Insert code here to process the incoming tuple, 
    // typically sending tuple data to an external system or data store.
    // String value = tuple.getString("AttributeName");
}

我会从ORC主页开始,为Hive,Hadoop选择适当的链接

最新更新