Spark 如何从另一个数据帧中的文件列表创建数据帧



在Apache Spark中,如果我有一个CSV文件列表的DataFrame,如何从第一个DataFrame中列出的所有文件的内容创建DataFrame

从您的描述来看,我认为文件的数量应该很少。只需收集驱动程序的文件路径,并使用它们创建数据帧。例如,

  val filePathDF = sc.parallelize(Seq("a.txt", "b.txt", "c.txt")).toDF("path")
  val df = sqlContext.read.text(filePathDF.collect().map(_.getString(0)): _*)
  df.show()

text 是一个 1.6 的 API。如果您使用的是 1.6 之前的 Spark,则可以改用format("text").load(...)

相关内容

  • 没有找到相关文章

最新更新