小贝子编程

读取CSV时如何指定Hadoop配置

我正在使用Spark 2.0.2。在将CSV文件读取到数据集中时，如何为TextInputFormat类指定Hadoop配置项目textinputformat.record.delimiter？

在java中我可以代码： spark.read().csv(<path>);但是，似乎没有一种提供特定于读取的hadoop配置的方法。

可以使用spark.sparkContext().hadoopConfiguration()设置项目，但这是全局。

谢谢，

你不能。数据源API使用其自己的配置，截至2.0甚至与Hadoop配置都不兼容。

如果要使用自定义输入格式或其他Hadoop配置，请使用SparkContext.hadoopFile，SparkContext.newAPIHadoopRDD或相关类。

可以使用Spark2.0

中的Option（）设置定界符

var df = spark.read.option("header", "true").option("delimiter", "t").csv("/hdfs/file/locaton")

相关内容