我有兴趣安装Platfora和Datameer Analytic工具。我的疑问是在两种工具的文档中,我们看到现有的Hadoop发行版,它们给出了包括CDH,HDP和MAPR在内的兼容性列表。但是我想将它们安装在现有的普通hadoop中。IE。我已经通过下载Apache Hadoop组件并准备了群集来安装Hadoop。
在这种情况下,这些工具会起作用吗?
您可以通过选择hortonworks的HDP发行版来使用普通的Apache Hadoop安装Platfora -HDP分发的核心是Plain Apache Hadoop。(我在Platfora工作。我们支持许多不同的Hadoop发行版,但是我们的很多开发实际上是使用普通Apache Hadoop完成的)。
Platfora不仅使用您的Hadoop群集来进行输入数据,而且还使用本机MapReduce和Apache Spark作业来处理原始,高音量,结构化或半结构化输入数据(JSON,XML,LOG FILES,CSV,AVRO,DATA,数据从Hive(其他处理管道和库的输出),您将其命名)。这可以很好地扩展,但是在分析问题中的每一个更改中,具有更高的延迟框架,例如MapReduce或Spark在您的工作流程中,这会使您的周转时间很长 - 对生产力不利。这就是为什么Platfora使用分布式扩展的内存查询引擎访问这些中间结果的原因,该引擎可支持低延迟视觉发现前端。这种端到端方法使具有交互式(次秒)视觉体验的数据的PBS可视化和理解模式非常容易 - 类似于Tableau,但本地为Hadoop,以及现代多数的规模和复杂性结构化数据。
是的。只要您使用"最新稳定"纱线,HDFS和MAP REDAD版本 - Datameer就可以无问题。除此之外,任何事情都无关紧要,因为Datameer不使用Hive,Oozie或任何其他组件,而是在应用程序中预先包装的Tez,Spark等,并在YARN上为您运行它。截至今天,我们支持50种不同版本的Hadoop。
我显然不能说Platflora,但无论如何它们并没有真正在Hadoop上运行本机,而只需将数据从HONED PONDARAR数据库中拉出,该数据库在一个额外的群集上运行: 额外的扩展硬件(内存激烈) 结构化数据仅是因为SQL(记住Hadoop作为NON-SQL构建) 仅小数据(因为在内存中) 由于基于SQL的
,没有高级分析(例如Graph Analytics)hthStefan(我在Datameer工作)