新手:Hadoop IIS日志 - 合理的方法



我是主题的总体初学者 - 很抱歉,如果这是一个愚蠢的问题。我的虚构场景是,我有几个网站服务器(IIS(,上面有几个日志位置。我想集中该日志文件,并基于我要分析应用程序和Web服务器的健康的数据。

由于hadoop over的生态系统多种工具,我不确定我的解决方案是否有效。

所以我认为我将日志文件移至HDF,在目录上创建外部表和一个内部表,然后通过Hive(插入...从...选择(从外部表中复制数据由于评论行以#开头的评论行,有些过滤当数据存储在内部表中时,我从HDFS删除了先前的移动文件。

技术它有效,我已经尝试了 - 但是这是合理的侵犯吗?如果是的话,我将如何自动化此步骤,因为现在我通过Ambari手动完成了所有操作。

感谢您的输入

bw

是的,这是完全很好的方法。

在提前设置蜂巢表之外,自动化的剩下是什么?

您想按计划运行事情吗?使用Oozie,Luigi,气流或Azkaban。

从其他Windows服务器中摄入日志,因为您拥有高度可用的Web服务?例如,使用Puppet配置您的日志收集代理(与Hadoop相关(

注意,如果仅是您关心的日志文件集合,我可能会使用elasticsearch而不是hadoop来存储数据,filebeat来连续观看日志文件,logstash以应用每封级别的级别过滤和kibana进行可视化。如果将Elasticsearch合并以进行快速索引/搜索和Hadoop进行档案,则可以在日志消息摄入和消息作家/消费者

之间插入kafka

最新更新