使用逗号和时间戳加载 csv



我尝试将csv文件加载到Hive中。我有日期时间列和包含逗号的列的问题。分隔符是逗号。

CMBk7Y,HM - PEUVP,promo,11066,FRA,1401445,Asegment_DLBD,1,imp,2017-05-31 22:52:30,"U=dsp=mmh,bid=0000002,adv=189,cpg=3449,str=2117,cre=41836,exc=apn,pub=3296,sit=leboncoin.fr,pag=https%3A//www.leboncoin.fr/materiel_agricoles/%3Fth%3D1%2ot%3D0;ord=909215572"

我无法使用打开的 CSVSerDe,因为我需要日期时间格式的日期列。CSVSerDe 仅适用于字符串

我试图使用ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPERTIES ( "separatorChar" = ",", "quoteChar" = """ )

但它将所有内容都放在一列中。

我也试过这样的:ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPERTIES ( 'serialization.format' = ',', 'field.delim' = ','(

在这种情况下,它采用最后一列中第一个逗号之前的所有内容。

我认为解决方案并不遥远,但我找不到它。

提前感谢您的任何帮助

如果你能为这种格式编写一个正则表达式,你应该能够使用正则表达式SerDe......与引号之间以外的任何逗号匹配。

org.apache.hadoop.hive.contrib.serde2.RegexSerDe

祝你好运!!!

最新更新