EMR spark(版本 5.26)与关联的粘附目录的当前行为,同时将数据保存到 s3 和粘附元数据如下
我有一个 EMR 集群,我正在运行以下命令
场景1
Seq(1,2,3).toDF("id")
.write
.option("header","true")
.option("delimiter","|")
.format("csv")
.saveAsTable("testdb.spark_csv_test_v1")
这会产生
- 带有标题和"|"分隔数据的 S3 文件正确 Glue metadata is Input format(org.apache.hadoop.mapred.SequenceFileInputFormat), Output
- format(org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat), Serialization lib(org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe)
- 图式
# | 列名 | 数据类型 | 分区键 | 注释 |
---|---|---|---|---|
1 | 列 | 阵列 | -从解串器 |
在场景 2 中,您将向表中添加属性"skip.header.line.count"="1"
根据 AWS 文档,这些属性会跳过标题行。那么您可以在没有此选项的情况下尝试一下吗?