我正在使用Spark 2.0.2。在将CSV文件读取到数据集中时,如何为TextInputFormat
类指定Hadoop配置项目textinputformat.record.delimiter
?
在java中我可以代码: spark.read().csv(<path>);
但是,似乎没有一种提供特定于读取的hadoop配置的方法。
可以使用spark.sparkContext().hadoopConfiguration()
设置项目,但这是全局。
谢谢,
你不能。数据源API使用其自己的配置,截至2.0甚至与Hadoop配置都不兼容。
如果要使用自定义输入格式或其他Hadoop配置,请使用SparkContext.hadoopFile
,SparkContext.newAPIHadoopRDD
或相关类。
可以使用Spark2.0
中的Option()设置定界符var df = spark.read.option("header", "true").option("delimiter", "t").csv("/hdfs/file/locaton")