在Apache Spark中,如果我有一个CSV文件列表的DataFrame
,如何从第一个DataFrame
中列出的所有文件的内容创建DataFrame
?
从您的描述来看,我认为文件的数量应该很少。只需收集驱动程序的文件路径,并使用它们创建数据帧。例如,
val filePathDF = sc.parallelize(Seq("a.txt", "b.txt", "c.txt")).toDF("path")
val df = sqlContext.read.text(filePathDF.collect().map(_.getString(0)): _*)
df.show()
text
是一个 1.6 的 API。如果您使用的是 1.6 之前的 Spark,则可以改用format("text").load(...)
。