将数据输送到Hadoop MR / Pig中的作业中



我在HDFS中的数据上运行了三种不同类型的作业。在当前方案中,这三个作业必须单独运行。现在,we want to run the three jobs together by piping the OUTPUT data of one job to the other job without writing the data in HDFS to improve the architecture and overall performance.

欢迎对此方案提出任何建议。

PS :Oozie不适合工作流程。由于可伸缩性问题,级联框架也被排除在外。谢谢

Hadoop 本质上是在 M/R 步骤之后写入存储(例如 HDFS(。 如果你想在内存中做一些东西,也许你需要研究像Spark这样的东西。

>Oozie帮助将多个Hadoop作业(mapreduce,pig,hive,java等(链接在一起,形成一个数据管道应用程序。对调度和Hadoop相关功能的内置支持使开发人员的工作更容易管理复杂的Hadoop相关工作。

然而,Oozie并不一定消除HDFS或其他形式(如本地文件系统或数据库等(中的数据存储。为此,您需要引入一些内存数据存储、消息队列系统或其他适用于您拥有的数据规模的系统。

你可以尝试使用HUE。 参考: http://blog.cloudera.com/blog/2014/10/new-in-cdh-5-2-new-security-app-and-more-in-hue/

CDH 5.2通过Hue包含了重要的新可用性功能,Hue是使Apache Hadoop易于使用的开源GUI。除了发布用于管理安全权限的全新应用程序外,此版本还特别功能丰富,并且正在成为 Cloudera 合作伙伴(如 Tableau、MicroStrategy 和 Zoomdata(的 BI 工具的重要补充,因为更可用的 Hadoop 可以在整个组织中转化为更好的整体 BI!

相关内容

  • 没有找到相关文章

最新更新