我有一个这样的表
CREATE EXTERNAL TABLE IF NOT EXISTS something (
...
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
'separatorChar' = ',',
'quoteChar' = '"',
'escapeChar' = '\'
)
LOCATION 's3://...'
TBLPROPERTIES ('has_encrypted_data'='false');
,但有些字段包含逗号,如(8-10,99),不带引号。CSV文件太大,无法在excel中打开。是否有任何方法可以更改分隔符或使雅典娜读取此文件?
如果字段以逗号分隔,但包含没有转义的逗号,则任何自动化工具都无法区分表示字段之间分隔符的逗号和表示内容的逗号。换句话说,这些文件格式不正确,必须加以修复。如果您可以选择重新生成文件,请确保字段被引用,或者使用不会出现在字段中的分隔符,例如制表符。