如何使用spark-submit命令设置默认文件格式



我想使用的默认格式不是org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe(目前,当我尝试创建表时,Spark使用的默认格式)。具体来说,我正在寻找一个CLI配置,而不是硬编码Spark代码中的格式,类似于spark-sql --hiveconf hive.default.fileformat=<format>配置,但对于Spark -submit命令。

我找到的最接近spark-submit的配置是Hive和Hadoop的自定义配置,但这些都不起作用,结果是一样的。

自定义配置示例:

spark-submit script.py 
--conf spark.hive.default.fileformat=Parquet 
--conf spark.hive.default.fileformat.managed=Parquet 

我知道有多种方法可以使用Spark Conf或Spark-sql 'STORE AS'设置格式,但这不是我需要的,因为这些是在文件中进行的配置。

提前谢谢你。

如果仍然相关的话,我自己在那个区域玩了一下,发现了一些东西。

您可以将默认的provider更改为不为Hive,然后更改默认源。两者都是spark的"常规"产品。属性,所以它们可能会在命令行中工作:

spark.sql.legacy.createHiveTableByDefault=false
spark.sql.sources.default=parquet  # this is the default anyways

相关内容

  • 没有找到相关文章

最新更新