我尝试将csv文件加载到Hive中。我有日期时间列和包含逗号的列的问题。分隔符是逗号。
CMBk7Y,HM - PEUVP,promo,11066,FRA,1401445,Asegment_DLBD,1,imp,2017-05-31 22:52:30,"U=dsp=mmh,bid=0000002,adv=189,cpg=3449,str=2117,cre=41836,exc=apn,pub=3296,sit=leboncoin.fr,pag=https%3A//www.leboncoin.fr/materiel_agricoles/%3Fth%3D1%2ot%3D0;ord=909215572"
我无法使用打开的 CSVSerDe,因为我需要日期时间格式的日期列。CSVSerDe 仅适用于字符串
我试图使用ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
"separatorChar" = ",",
"quoteChar" = """
)
但它将所有内容都放在一列中。
我也试过这样的:ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'serialization.format' = ',',
'field.delim' = ','
(
在这种情况下,它采用最后一列中第一个逗号之前的所有内容。
我认为解决方案并不遥远,但我找不到它。
提前感谢您的任何帮助
如果你能为这种格式编写一个正则表达式,你应该能够使用正则表达式SerDe......与引号之间以外的任何逗号匹配。
org.apache.hadoop.hive.contrib.serde2.RegexSerDe
祝你好运!!!