使用Scala在CSV文件中的字段中处理定界符

我有一个.csv文件|定界符和以下命令适合我，为某些记录中包含特定符的一些记录

val df_artist = spark.read.format("com.databricks.spark.csv").option("header", "false").option("delimiter", "|").option("mode", "DROPMALFORMED").load("./artists.csv");

普通：

ARVYNKF1272BA83168|TRAGGZG128F92F9B5E|Black Devil Disco Club

不规则：

ARQJXPL1187B9B4D6B|TRWUJAE128F92E3E7D|M|A|R|R|S
ARZCIDG1187B992CE3||Kid Creole | The Coconuts

是否可以制作前两列，而一切都将放在第三列，忽略定界符？

我使用Spark 2.1.1，如果很重要。

我建议使用 sparkContext textFile读取csv文件和split使用|定界器的行，然后选择前两个字符串作为前两列，而其余的则是第三列。这是

的工作代码

val data = sc.textFile("./artists.csv")
data.map(line => line.split("\|"))
  .map(array => (array(0), array(1), array.drop(2)))
  .toDF("rowId", "ticketId", "movies")
  .show(false)

给出，输入文件包含

的数据

ARVYNKF1272BA83168|TRAGGZG128F92F9B5E|Black Devil Disco Club
ARQJXPL1187B9B4D6B|TRWUJAE128F92E3E7D|M|A|R|R|S
ARZCIDG1187B992CE3||Kid Creole | The Coconuts

以上代码的输出将为

+------------------+------------------+----------------------------+
|rowId             |ticketId          |movies                      |
+------------------+------------------+----------------------------+
|ARVYNKF1272BA83168|TRAGGZG128F92F9B5E|[Black Devil Disco Club]    |
|ARQJXPL1187B9B4D6B|TRWUJAE128F92E3E7D|[M, A, R, R, S]             |
|ARZCIDG1187B992CE3|                  |[Kid Creole ,  The Coconuts]|
+------------------+------------------+----------------------------+

相关内容

最新更新

热门标签：