我真的是Hive的新手,如果我的问题有任何误解,我道歉。
我需要读取hadoop序列文件到Hive表中,序列文件是thrift二进制数据,可以使用Hive自带的SerDe2进行反序列化。
现在的问题是:文件中的一列是用Google protobuf编码的,所以当thrift SerDe处理序列文件时,它不能正确处理protobuf编码的列。
我想知道Hive中是否有一种方法来处理这种嵌套在thrift序列文件中的protobuf编码列,以便每个列都可以正确解析?
非常感谢您的帮助!
我认为您应该使用其他服务器来反序列化原型buff格式,
也许你可以参考这个
https://github.com/twitter/elephant-bird/wiki/How-to-use-Elephant-Bird-with-Hive