我遇到了一个问题,真的需要帮助。
以下是我的数据集
"counter","qid","i","qs","qt","tags","qvc","qac","aid","j","as","at"
"1",563355,62701,0,1235000081,"php,error,gd,image-processing",220,2,563372,67183,2,1235000501
"2",563356,15842,10,1235000140,"lisp,scheme,clojure",1047,16,563358,15842,3,1235000177
所有列都用","分隔,第六列是标签,这是 2 到 5 个标签的列表,也用","分隔。 我尝试创建带有标签作为字符串和字符串数组的表,两者都给了我标签列表中的第一个值(在本例中为php
和lisp
(,其余列为 null。
"1" 563355 62701 0 1235000081 "php NULL NULL NULL 220 2 563372
"2" 563356 15842 10 1235000140 "lisp NULL NULL NULL 1047 16 563358
期望输出:
"1" 563355 62701 0 1235000081 "php,error,gd,image-processing" 220 2 563372
"2" 563356 15842 10 1235000140 "lisp,scheme,clojure" 1047 16 563358
我做了一些研究,发现我可以编写一个 REGEXSERDE 模式来读取数据,我是新手,我不知道如何编写正则表达式模式。除了正则表达式之外还有其他方法吗?如果没有,有人可以帮我编写正则表达式模式吗?
提前谢谢你。
最简单的方法是用其他东西更改'","分隔符
另一种方法是使用Open csv serde 这将帮助您做到这一点
可以使用 Hive 外部表
create external table try3.tablename(
counter string,
qid int,
i int,
qs int,
qt int,
tags string,
qac int,
aid int )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
'input.regex' = '(.*?),(.*?),(.*?),(.*?),(.*?),(".*"),(.*?),(.*?),.*'
)
STORED AS TEXTFILE
LOCATION '/somelocation'