Hadoop发行版MapR与Cloudera和Hortonworks相比有哪些缺点



Cloudera和Hortonworks使用HDFS,这是Apache Hadoop的基本概念之一。MapR使用自己的概念/实现。您可以直接使用本机文件系统,而不是HDFS。你可以在MapR的网站上找到使用这种方法的很多优点。

我想知道这种方法的缺点是什么?

我对MapR的定义有点不同。它不使用HDFS,而是提供了自己的带有NFS接口的分布式文件系统。其与HDFS一样基于本地FS。
主要区别来自HDFS不是Posix和其他设计选择
1.HDFS是不可变的,而MapR是可变的。它可以被视为优势,尤其是在您需要它的时候。
2.HDFS是不可挂载的,而MapR是。您可以使用任何现有的Linux FS工具

与posix无关:MapR具有较小的块大小,并且没有单点故障(NameNode(。MapR具有多站点复制

让我们也看看黑暗面:a( 拥有可变的数据(而不是不可变的HDFS(会使系统更加复杂
b( 目前还不知道(至少对我来说(如何处理巨大的集群。(我听说了大约一百个节点(
c( 从体系结构的角度(具有小块(,我不确定如何实现良好的数据局部性

David,分钟排序记录由MapR于2013年1月30日在谷歌云中的谷歌计算引擎上设置。查看我们的博客http://www.mapr.com/blog/hadoop-minutesort-record.该记录是在一个2103节点的集群上创建的,在59秒内对1.5 TB的数据进行了排序。

另请参阅之前的一篇博客,该博客通过MapR在54秒内对1TB的数据进行排序来实现Terasort记录。它设置在谷歌云中谷歌计算引擎上的1003节点集群上。博客发布在http://www.mapr.com/blog/record-setting-hadoop-in-the-cloud.

有关此主题的许多问题/答案,请参阅answers.mapr.com。

在一些公正的来源对Apache Hadoop与MapR版本进行广泛的基准测试(在不同的工作负载下(之前,我认为我们不能明确地说一个比另一个快。如果记录将决定您的意见,那么您现在应该知道,当前的terasand记录由Yahoo和ApacheHadoop持有。详细信息请点击此处。

MapR和Hortonworks/Cloudera之间的主要缺点是MapRFS(文件系统(和MapR DB(NOSQL数据库(是专有的(不是开源的(。如果MapR不再存在,则假定这些产品将停止开发和支持。

由于Hortonworks、Cloudera和其他Hadoop发行版与开源社区一起使用/支持HDFS/HBase,因此HDFS/HBase不被开发和支持的风险较小。

最新更新