我正在研究电影镜头数据集。在其中一个csv
文件中,数据的结构如下:
movieId
movieTitle
genres
和genres
同样是|
分隔值的列表,该字段可为空。
我正试图获得所有genres
的唯一列表,以便我可以重新排列数据如下:
movieId
movieTitle
genre1
genre2
...
genreN
和genre
作为genre1 | genre2
的行,看起来像:
1
Title1
1
1
0
...
0
到目前为止,我已经能够使用以下代码读取csv
文件:
val conf = new SparkConf().setAppName(App.name).setMaster(App.sparkMaster)
val context = new SparkContext(conf)
val sparkSession = SparkSession.builder()
.appName(App.name)
.config("header", "true")
.config(conf = conf)
.getOrCreate()
val movieFrame: DataFrame = sparkSession.read.csv(moviesPath)
如果我尝试这样做:
movieFrame.rdd.map(row ⇒ row(2).asInstanceOf[String]).collect()
然后我得到以下异常:
java.lang.ClassNotFoundException: com.github.babbupandey.ReadData$$anonfun$1
然后,另外,我尝试使用以下代码显式地提供模式:
val moviesSchema: StructType = StructType(Array(StructField("movieId", StringType, nullable = true),
StructField("title", StringType, nullable = true),
StructField("genres", StringType, nullable = true)))
和尝试:
val movieFrame: DataFrame = sparkSession.read.schema(moviesSchema).csv(moviesPath)
然后我得到了同样的异常
是否有任何方法可以将genres
设置为List
或Set
,以便我可以进一步将数据揉成所需的格式?
我是这样得到这组类型的:
val genreList: Array[String] = for (row <- movieFrame.select("genres").collect) yield row.getString(0)
val genres: Array[String] = for {
g ← genreList
genres ← g.split("\|")
} yield genres
val genreSet : Set[String] = genres.toSet
这是一个数组[Array[String]]
val genreLst = movieFrame.select("genres").rdd.map(r => r(0).asInstanceOf[String].split("\|").map(_.toString).distinct).collect()
获取Array[String]
val genres = genreLst.flatten
或
val genreLst = movieFrame.select("genres").rdd.map(r => r(0).asInstanceOf[String].split("\|").map(_.toString).distinct).collect().flatten