什么时候用镶木地板代替ORC或用ORC代替镶木地板



我浏览了许多堆栈链接和其他博客,所有这些链接都有混合响应。所有的答案大多受到偏袒的启发,但找不到任何具体的数据点,我们可以从中选择一个。无论是数据结构的复杂性,还是压缩,无论是性能还是兼容性,这两种文件格式在不同的博客中都被认为是好的。

请帮助具体的用例或领域,其中一个取代另一个。

ORC和Parquet是非常相似的文件格式。与差异相比,他们有更多的相似之处。

  1. 两者都是列文件系统
  2. 两者都具有块级压缩

然而,我们有以下指针可供选择:

  1. Parquet由Cloudera开发和支持。它的灵感来源于柱状文件格式和Google Dremel。因此,Cloudera支持的产品和发行版更喜欢镶木地板。如果你打算在数据中使用黑斑羚,那么更喜欢镶木地板

  2. ORC格式是从RCFile格式演变而来的。当您将复杂的数据类型作为数据的一部分时,这是非常好的。

  3. ORC可以为您提供更好的压缩效果。

  4. 在提供谓词下推功能方面,ORC比Parquet更成熟。最近在镶木地板上也提供了这种功能。

您可以在youtube上观看此视频。它很好地涵盖了这个主题。

最新更新