这更适合日志分析



我必须使用Hadoop相关工具分析存储在生产服务器上的Gzip压缩日志文件

我无法决定如何做到这一点,以及使用什么,以下是我考虑使用的一些方法(请随意推荐其他方法):

  • Flume
  • 卡夫卡
  • 地图缩小

在我可以做任何事情之前,我需要从生产服务器获取压缩文件并处理它们,然后将它们推送到Apache HBase

根据日志的大小(假设计算不适合单个机器,即需要"大数据"产品),我认为使用Apache Spark可能是最合适的。考虑到你对生态系统了解不多,最好选择Databricks Cloud,它将为你提供一种从HDFS读取日志的简单方法,并以可视化的方式(使用笔记本)使用Spark转换进行分析。

你可以在上面的链接上找到这个视频
有一个免费的试用版,所以你可以看看会怎么样,然后再决定。

附言:我与Databricks没有任何关系。只要认为他们有一个伟大的产品,仅此而已:)

您混合了许多相互关联的概念,这些概念互不替代。

看看hadoop生态系统

Apache Map Reduce 是:一个基于YARN(另一个资源协商器)的系统,用于并行处理大型数据集。它提供了简单的编程API。

Apache Kafka 是一个用于处理大量流数据的分布式发布-订阅系统。您可以将Kafka视为一个简单的"消息存储"

Apache Flume 专为将大量日志数据(非结构化格式)收集、聚合和移动到HDFS系统而设计。它从各种HTTP源和web服务器收集数据。

一旦数据从Flume导入HDFS,就可以使用PIG或Hive将其转换为结构化数据,并可以以结构化形式生成报告。PIGHive运行一系列Map Reduce作业来处理这些数据并生成报告。

看看这篇文章,更好地了解日志文件处理体系结构

您提到的每个工具都在做其他事情-

Flume是一种分布式、可靠且可用的服务,用于高效地收集、聚合和移动大量日志数据

Apache Kafka将发布-订阅消息重新考虑为分布式提交日志Map reduce更多的是用于处理数据的设计模式。

我的建议是更好地定义你真正想要的东西,并检查相关的工具。

由于我在生产服务器中存储了日志文件,我将把这些文件复制到HDFS中,并编写了mapreduce程序来处理它。

我认为@Marko Bonaci的答案是有效的,我们可以尝试使用spark来分析日志文件。

感谢大家的宝贵意见。

相关内容

  • 没有找到相关文章

最新更新