Presto支持哪些文件格式?是否有任何特定的文件格式推荐以获得更好的性能。我很想知道是否有任何像 RCfile 这样针对 Presto 优化的列式文件格式?
我们使用Parquet,ORC,RCFile,Avro,SequenceFile,TextFile和其他格式测试每个Trino(以前的PrestoSQL)版本,但Presto应该支持任何标准的Hadoop文件格式。 在Facebook,我们的大部分数据都是ORC格式,所以目前这种格式在Presto上表现最好。
最佳优化是ORC。Parquet也相当不错,由于Netflix,更多的优化即将到来。
对于当前版本的presto,我使用ORC文件重新共享,Dain已经在presto中完成了新的ORC阅读器,而且速度非常快。这是博客https://code.facebook.com/posts/370832626374903/even-faster-data-at-the-speed-of-presto-orc/
Presto支持文本,SequenceFile,RCFile,ORC和Parquet文件格式。参考资料:https://prestodb.io/overview.html
Hive 连接器支持以下文件类型:•兽人•木条镶花之地板•阿夫罗•RCFile•序列文件•JSON•发短信在我的实践中,最好的优化格式是ORC和Parquet。