我有一个.csv文件|定界符和以下命令适合我,为某些记录中包含特定符的一些记录
val df_artist = spark.read.format("com.databricks.spark.csv").option("header", "false").option("delimiter", "|").option("mode", "DROPMALFORMED").load("./artists.csv");
普通:
ARVYNKF1272BA83168|TRAGGZG128F92F9B5E|Black Devil Disco Club
不规则:
ARQJXPL1187B9B4D6B|TRWUJAE128F92E3E7D|M|A|R|R|S
ARZCIDG1187B992CE3||Kid Creole | The Coconuts
是否可以制作前两列,而一切都将放在第三列,忽略定界符?
我使用Spark 2.1.1,如果很重要。
我建议使用 sparkContext
textFile
读取csv
文件和split
使用|
定界器的行,然后选择前两个字符串作为前两列,而其余的则是第三列。这是
val data = sc.textFile("./artists.csv")
data.map(line => line.split("\|"))
.map(array => (array(0), array(1), array.drop(2)))
.toDF("rowId", "ticketId", "movies")
.show(false)
给出,输入文件包含
的数据ARVYNKF1272BA83168|TRAGGZG128F92F9B5E|Black Devil Disco Club
ARQJXPL1187B9B4D6B|TRWUJAE128F92E3E7D|M|A|R|R|S
ARZCIDG1187B992CE3||Kid Creole | The Coconuts
以上代码的输出将为
+------------------+------------------+----------------------------+
|rowId |ticketId |movies |
+------------------+------------------+----------------------------+
|ARVYNKF1272BA83168|TRAGGZG128F92F9B5E|[Black Devil Disco Club] |
|ARQJXPL1187B9B4D6B|TRWUJAE128F92E3E7D|[M, A, R, R, S] |
|ARZCIDG1187B992CE3| |[Kid Creole , The Coconuts]|
+------------------+------------------+----------------------------+