我有一个hadoop作业,它在300个节点的集群中运行,对于我的作业,我有一个特定的队列,作业将在其中执行。
作业在生产上运行良好,但是它在userlogs文件夹下生成了太多的日志,我已经执行了hadoop合并命令并获得了290 GB大小的文件。
我可以看到hadoop在syslog日志中记录了太多。
我有一些问题,如果有人能指导我,那将对我有很大的帮助-
1)- syslog日志基于输入数据
2)-基于hive查询的syslog日志(我可以看到所有条目都与Hadoop处理相关,我不认为hive查询对日志的过度创建有任何影响)
hadoop中的日志显示了从YARN, Mapping, reduce到最终写入的结果。
Hadoop集群上Hive执行期间的日志记录由Hadoop的配置。通常Hadoop会为每个地图生成一个日志文件并减少存储在任务所在集群机器上的任务执行。日志文件可以通过单击到
从Hadoop JobTracker Web界面进入"Task Details"页面。参考:Hive Logging
配置Hadoop日志,请参考:How To configure - log4j_configuration