有一个配置项(max-split-size
)用于设置一个split
的最大大小。换句话说,我可以更改项的值来更改拆分次数。
我知道,更多的拆分会同时使用更多的cpu
,搜索会变得更快。
如果是,为什么要预先设置项目的默认值为32M
而不是1M
?
创建的每个拆分都有开销,所以您不希望它们太小。此外,像ORC这样的一些文件格式不能拆分为小于ORC条带的大小,该条带往往为数十到数百兆字节