引号未显示在 CSV 输出文件中



初始数据在数据集<行中>我正在尝试将每个单元格值写入csv文件以放在引号中。

result.coalesce(1).write()
.option("delimiter", "|")
.option("header", "true")
.option("nullValue", "")
.option("quoteMode", "ALL_NON_NULL")
.csv(Location);

预期产出:

null
"London"|"UK"
"Delhi"|"India"
"Moscow"|"Russia"

电流输出:

null
London|UK
Delhi|India
Moscow|Russia

Spark版本是2.3

正如@Oli回答的那样,您拥有的第一个选项是在 CSV 编写器中"quoteMode"

如果需要更多控制,则可以在所有列上使用 concat 函数,在值前面加上引号并为其后缀。 下面的示例

import org.apache.spark.sql.functions.{concat, lit, col}
val df = Seq(
("1","a",null,"c"),
("3",null,"d","c"),
("4","a","b",null)
).toDF("id","A","B","C")
df.show()
+---+----+----+----+
| id|   A|   B|   C|
+---+----+----+----+
|  1|   a|null|   c|
|  3|null|   d|   c|
|  4|   a|   b|null|
+---+----+----+----+
val dfquotes = df.select(df.columns.map(c => concat(lit("""), col(c), lit(""")).alias(c)): _*)
dfquotes.show()
+---+----+----+----+
| id|   A|   B|   C|
+---+----+----+----+
|"1"| "a"|null| "c"|
|"3"|null| "d"| "c"|
|"4"| "a"| "b"|null|
+---+----+----+----+

"quoteMode"是Databrick的CSV编写器的一个选项。在这里,您使用的是不支持该选项的Spark内置CSV编写器。请查看此页面了解可用选项。

在您的情况下,您正在寻找的选项是.option("quoteAll", true).

最新更新