Hive 不会以 ORC 格式从外部表返回值



我正在尝试从Hive上的外部表中检索数据。我正在使用基于 cloudera/快速入门映像的 docker 容器来执行此操作,该容器是 Cloudera 的官方映像。

该表:

create external table dev.tru_sprinklr_rpt_platform_inbound_case (
universal_message_id    STRING  COMMENT 'Id unico na mensagem', 
inbound_message_date    STRING  COMMENT 'Data no formato Unix Timestamp', 
message                 STRING  COMMENT 'Mensagem escrita na Rede Social', 
permalink               STRING  COMMENT 'URL que aponta para uma postagem específica na Rede Social', 
social_network          STRING  COMMENT 'Nome da Rede Social', 
associated_cases        STRING  COMMENT 'Id de mensagens associados ao caso (gerado automaticamente pela Sprinklr no periodo de 24 horas)',
from_user               STRING  COMMENT 'Usuario', 
sentiment               STRING  COMMENT 'Sentimento', 
assunto_gestor          STRING  COMMENT 'Categoria gerada na plataforma Sprinklr pelos atendentes de midia sociais com assunto do caso', 
detalhamento            STRING  COMMENT 'Categoria gerada na plataforma Sprinklr pelos atendentes de midia sociais com detalhamento do caso', 
motivo_engajamento      STRING  COMMENT 'Categoria gerada na plataforma Sprinklr pelos atendentes de midia sociais com motivo e engajamento do caso', 
has_brand_responded     STRING  COMMENT 'Mensagem teve uma resposta', 
sender_id               STRING  COMMENT 'Id do usuario que esta enviando a mensagem', 
sender_name             STRING  COMMENT 'Login do usuario que esta enviando a mensagem', 
sender_screenname       STRING  COMMENT 'Nome do usuario que esta enviando a mensagem', 
sender_location         STRING  COMMENT 'Localizacao do usuario que esta enviando a mensagem',
sender_url_profile      STRING  COMMENT 'URL do perfil do usuario que esta enviando a mensagem', 
sender_following        STRING  COMMENT 'Quantidade de seguintes do usuario que esta enviando a mensagem', 
sender_followers        STRING  COMMENT 'Quantidade de seguidores do usuario que esta enviando a mensagem', 
receiver_id             STRING  COMMENT 'Id do usuario que esta recebendo a mensagem', 
receiver_name           STRING  COMMENT 'Nome do usuario que esta recebendo a mensagem'
) stored as orc
location '/user/next/dev/sprinklr/external'
tblproperties ("orc.compress"="ZLIB");

Hive 版本:Hive 1.1.0-cdh5.7.0

我正在使用 Spark 1.6(因为与我合作的公司(在"位置"中写入 orc 文件。文件在那里并且具有正确的内容。我知道这一点,因为我可以使用 Spark 读取数据帧上的内容。

但是,当我使用一个简单的查询(选择 * FROM (时,结果是这样的:

$ hive -e "select * from dev.tru_sprinklr_rpt_platform_inbound_case"
2020-05-12 18:13:10,235 WARN  [main] mapreduce.TableMapReduceUtil: The hbase-prefix-tree 
module jar containing PrefixTreeCodec is not present.  Continuing without it.
Logging initialized using configuration in file:/etc/hive/conf.dist/hive-log4j.properties
OK
Time taken: 1.134 seconds
WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.
WARN: Please see http://www.slf4j.org/codes.html#release for an explanation

如您所见,即使在 HDFS 上的正确路径中使用 orc 文件(实际上是目录(,也不会返回任何内容。

我尝试使用此命令,希望只是需要更新元数据的 Hive: MSCK 维修表

dev.tru_sprinklr_rpt_platform_inbound_case但什么都没有改变!

我试图在创建表之前包含这一行,但是,也没有改变! 添加 JAR/jars/hive-orc-2.2.0.jar;

我读过类似的问题,但没有一个对我有用。

有什么建议吗?

谢谢!

您的查询看起来很适合读取数据,但可能是因为错误的列顺序或错误的数据类型,您的数据未读取数据并且空白即将到来。

我遇到了类似的问题,那是错误的列顺序。这很奇怪,因为ORC包含架构详细信息。

这显然是一个数据文件错误,可能是文件格式不正确,或者某些字段格式不正确,或者更好地说表结构和数据之间存在差异或不一致。请尝试签出数据文件,Hive 中有一个实用程序可以检查 orc 文件。

例如,您可以看到此链接:

在 HDFS 上,我想显示以 ORC 格式存储的 Hive 表的普通文本

和 Hive 文档:

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC#LanguageManualORC-ORCFileDumpUtility

最新更新