蜂巢:如何将apachepig生成的数据加载到蜂巢表中

我正在尝试将pig的输出加载到一个配置单元表中。数据以avro模式存储在HDFS上。在猪的工作中，我只是在做：

data = LOAD 'path' using AvroStorage();
data = FILTER BY some property;
STORE data into 'outputpath' using AvroStorage();

我正试图通过以下操作将其加载到蜂窝表中：

load data inpath 'outputpath' into table table_with_avro_schema parititon(somepartition);

然而，我得到了一个错误说：

FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Invalid partition key & values; keys [somepartition, ], values [])

有人能告诉我这里做错了什么吗？非常感谢！

我刚刚发现这是因为LOAD操作不反序列化数据。它的作用就像一个复制操作。因此，为了修复它，您应该遵循以下步骤：

1. CREATE EXTERNAL TABLE some_table LIKE SOME_TABLE_WITH_SAME_SCHEMA;
2. LOAD DATA INPATH 'SOME_PATH' INTO some_table ;
3. INSERT INTO TARGET_TABLE SELECT * FROM some_table;

基本上，我们应该首先将数据加载到外部表中，然后将其插入到目标配置单元表中。

相关内容

最新更新

热门标签：