是否有用于控制在Presto中使用INSERT或CREATE TABLE写入的文件数量的配置?寻找与 Spark 对应物相似或相同的东西spark.sql.shuffle.partitions = 1
.
我希望减少使用 INSERT 生成的小文件的数量,以避免使用上述 Spark 配置在 Spark 中增加 ETL。这可能吗?我在 Presto 文档中没有找到与此类似的内容。
您无法直接控制输出文件的数量,但可以通过打开scale-writers
config 选项(或scale_writers
会话属性(来减少写入的文件数。将以下内容添加到config.properties
文件中:
scale-writers=true
启用该选项后,Trino(以前称为 PrestoSQL(将使用所需的最小写入器数量,并根据吞吐量根据需要进行扩展。
请参阅Trino Community Slack上的讨论:
https://trinodb.slack.com/archives/CFLB9AMBN/p1564046069087800?thread_ts=1563945529.046400&cid=CFLB9AMBN
不幸的是,截至Presto 327尚未记录此选项。我创建了一个问题来跟踪文档的此改进:https://github.com/trinodb/trino/issues/2352。