我想使用的默认格式不是org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
(目前,当我尝试创建表时,Spark使用的默认格式)。具体来说,我正在寻找一个CLI配置,而不是硬编码Spark代码中的格式,类似于spark-sql --hiveconf hive.default.fileformat=<format>
配置,但对于Spark -submit命令。
我找到的最接近spark-submit的配置是Hive和Hadoop的自定义配置,但这些都不起作用,结果是一样的。
自定义配置示例:
spark-submit script.py
--conf spark.hive.default.fileformat=Parquet
--conf spark.hive.default.fileformat.managed=Parquet
我知道有多种方法可以使用Spark Conf或Spark-sql 'STORE AS
'设置格式,但这不是我需要的,因为这些是在文件中进行的配置。
提前谢谢你。
如果仍然相关的话,我自己在那个区域玩了一下,发现了一些东西。
您可以将默认的provider
更改为不为Hive,然后更改默认源。两者都是spark的"常规"产品。属性,所以它们可能会在命令行中工作:
spark.sql.legacy.createHiveTableByDefault=false
spark.sql.sources.default=parquet # this is the default anyways