同质数据存储的Apache钻头



刚刚开始探索Apache Drill作为报告应用程序的数据引擎。

我们是Postgres商店,因为我们的交易数据都在RDBMS中。

搬到任何NOSQL(MongoDB)对我们来说是一个遥远的梦想,截至今天,我们不需要花钱。

我们的数据大小很大(但仍在Postgres中)。我们有几张桌子,最高数亿美元(例如1.5亿)。

性能是我们的关键。我们希望我们的报告尽可能快地实时生成最终用户。

我在这里有一个基本问题:

如果本地(直接)邮政的时间成本查询是:p通过进行钻头,我想到的成本将为:P D,D是钻探的额外费用?

在一天结束时,如果Postgres被证明是瓶颈(例如缺失的指数等),那么钻机就不得不使情况变得更好,无论我水平上有多少钻头吗?p>那么,以什么方式使用钻头来帮助我优化邮政局和直接查询?

apache drill通常用于合并访问,并能够通过不同的数据库系统加入,例如postgresql和mongodb。

这里我的第一个问题是为什么在较新版本中更改工作和经过验证的数据库系统完全可以处理JSON数据?正在看到的主要成功因素是什么打开愿意搬到蒙古的?

如果您只有一个数据库系统,我将专注于从中获得最多的性能。如果使用Apache Drill合并不同的系统,则必须记住一些设计钻层的事实:

  • 如果您设置了几个钻头
  • ,则需要Zookeeper节点进行钻孔
  • 您需要一些确实具有计算功率和大内存的钻头服务器
  • 您需要确保在发送查询时如何使用钻头使用基础数据库:钻探试图使用数据库系统的最大功能来最大程度地减少其需要执行的处理数据库系统)。因此,基础数据库基础架构必须是强大的

最新更新