新手:Hadoop IIS日志 - 合理的方法 - Newbie: Hadoop IIS Logs

我是主题的总体初学者 - 很抱歉，如果这是一个愚蠢的问题。我的虚构场景是，我有几个网站服务器(IIS(，上面有几个日志位置。我想集中该日志文件，并基于我要分析应用程序和Web服务器的健康的数据。

由于hadoop over的生态系统多种工具，我不确定我的解决方案是否有效。

所以我认为我将日志文件移至HDF，在目录上创建外部表和一个内部表，然后通过Hive(插入...从...选择(从外部表中复制数据由于评论行以＃开头的评论行，有些过滤当数据存储在内部表中时，我从HDFS删除了先前的移动文件。

技术它有效，我已经尝试了 - 但是这是合理的侵犯吗？如果是的话，我将如何自动化此步骤，因为现在我通过Ambari手动完成了所有操作。

感谢您的输入

是的，这是完全很好的方法。

在提前设置蜂巢表之外，自动化的剩下是什么？

您想按计划运行事情吗？使用Oozie，Luigi，气流或Azkaban。

从其他Windows服务器中摄入日志，因为您拥有高度可用的Web服务？例如，使用Puppet配置您的日志收集代理(与Hadoop相关(

注意，如果仅是您关心的日志文件集合，我可能会使用elasticsearch而不是hadoop来存储数据，filebeat来连续观看日志文件，logstash以应用每封级别的级别过滤和kibana进行可视化。如果将Elasticsearch合并以进行快速索引/搜索和Hadoop进行档案，则可以在日志消息摄入和消息作家/消费者

之间插入kafka

新手:Hadoop IIS日志 - 合理的方法

相关内容

最新更新

热门标签：