读取CSV时如何指定Hadoop配置



我正在使用Spark 2.0.2。在将CSV文件读取到数据集中时,如何为TextInputFormat类指定Hadoop配置项目textinputformat.record.delimiter

在java中我可以代码: spark.read().csv(<path>);但是,似乎没有一种提供特定于读取的hadoop配置的方法。

可以使用spark.sparkContext().hadoopConfiguration()设置项目,但这是全局。

谢谢,

你不能。数据源API使用其自己的配置,截至2.0甚至与Hadoop配置都不兼容。

如果要使用自定义输入格式或其他Hadoop配置,请使用SparkContext.hadoopFileSparkContext.newAPIHadoopRDD或相关类。

可以使用Spark2.0

中的Option()设置定界符
var df = spark.read.option("header", "true").option("delimiter", "t").csv("/hdfs/file/locaton")

相关内容

  • 没有找到相关文章