如何使用带有 EMR 标题的格式 csv 的保存表,并带有存储为文本文件的胶水



EMR spark(版本 5.26)与关联的粘附目录的当前行为,同时将数据保存到 s3 和粘附元数据如下

我有一个 EMR 集群,我正在运行以下命令

场景1

Seq(1,2,3).toDF("id")
.write
.option("header","true")
.option("delimiter","|")
.format("csv")
.saveAsTable("testdb.spark_csv_test_v1")

这会产生

  1. 带有标题和"|"分隔数据的 S3 文件正确
  2. Glue metadata is Input format(org.apache.hadoop.mapred.SequenceFileInputFormat), Output
  3. format(org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat), Serialization lib(org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe)
  4. 图式
#列名数据类型分区键注释
1阵列-从解串器

在场景 2 中,您将向表中添加属性"skip.header.line.count"="1"根据 AWS 文档,这些属性会跳过标题行。那么您可以在没有此选项的情况下尝试一下吗?

最新更新