如何在spark数据框架中获取记录的输入文件名



我正在通过从s3加载tab分隔文件在spark中创建一个数据框架。我需要获取数据框中每条记录的输入文件名信息,以便进行进一步处理。I tried

dataframe.select(inputFileName())

但是我得到input_file_name的空值。谁来帮我解决这个问题

您可以使用withColumninput_file_name()在数据框架上创建一个新列:

dataframe.withColumn("input_file", input_file_name())

相关内容

  • 没有找到相关文章

最新更新