小贝子编程

如何使用带有 EMR 标题的格式 csv 的保存表，并带有存储为文本文件的胶水

本文关键字：存储文本文件保存 EMR 何使用标题格式 csv amazon-redshift amazon-emr aws-glue aws-glue-data-catalog
更新时间 : 2023-09-20
英文 : How to use save table with format csv with header from EMR with glue with stored as textfile

EMR spark(版本 5.26)与关联的粘附目录的当前行为，同时将数据保存到 s3 和粘附元数据如下

我有一个 EMR 集群，我正在运行以下命令

场景1

Seq(1,2,3).toDF("id")
.write
.option("header","true")
.option("delimiter","|")
.format("csv")
.saveAsTable("testdb.spark_csv_test_v1")

这会产生

带有标题和"|"分隔数据的 S3 文件正确
format(org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat)， Serialization lib(org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe)
图式

#	列名	数据类型	分区键	注释
1	列	阵列		-从解串器

在场景 2 中，您将向表中添加属性"skip.header.line.count"="1"根据 AWS 文档，这些属性会跳过标题行。那么您可以在没有此选项的情况下尝试一下吗？

相关内容