我目前正在探索Tera数据Aster(Aster express 6)。我已经阅读了文档和博客,但没有任何地方解释查询是如何工作的。由于SQL和SQL -mr获取数据的方式是分布式的,它们是否在内部生成map reduce作业?
例如,客户表有10条记录,这些记录通过哈希(客户id)分布,并且说它们是3个工人(只是asterdata中的节点),数据在它们之间分割为3条记录,每条记录在两个节点上,4条记录在一个节点上。
在SQL简单的select * from customers;在这种情况下有效吗?
,但在aster数据中,此查询有效。
它如何从3个节点获取记录?如果普通的sql查询可以获取记录,那么我们为什么需要MapReduce,我们可以使用多个子查询来完成我们的任务?
如果数据分布在多台机器上,那么mapreduce是处理数据的唯一方法?
如果有人给我解释一下就好了!
Pradi
www.teradata.com/white-paper/Using-SQL-MapReduce-for-Advanced-Analytical-Queries/是Teradata赞助的白皮书,它解释了他们将MapReduce与SQL结合在一起的基本原理,应该是提高理解的一个很好的起点。