解析 BASH 中的日志文件以查找特定时间戳之间的"ERROR"条目



我正在用BASH编写一个脚本,该脚本需要检查日志文件中的ERROR条目。我计划每小时运行一次,所以我只想让它只返回最近一小时内发生的ERROR类型条目(所有服务器时间都是GMT)。我建立了以下变量

# Log file directory
LOGPATH="/path/to/logs/"
# Current date and time
CURDATE=`date +%Y-%m-%d`
CURTIME=`date +%H:%M:%S`
# Old date and time
OLDDATE=`date +%Y-%m-%d -d "1 hour ago"`
OLDTIME=`date +%H:%M:%S -d "1 hour ago"`

所有日志文件都遵循ktYEAR-MONTH-DAY.root.log.txt的文件名格式,其中YEAR/MONTH/DAY替换为记录条目的日期。例如,今天的日志文件是kt2011-08-15.root.log.txt。内容的一个示例条目是

2011-08-15 | 19:30:02 | ERROR | 18333 | 337 | n/a | dms | default | error | XMLRPC Lucene - addDocument - Reason: Failed to parse XML-RPC request: An invalid XML character (Unicode: 0xb) was found in the element content of the document.

感兴趣的列是第一,第二,第三列(值可能是"INFO","DEBUG"等,但我只对"ERROR"是值感兴趣)和最后一列,这是日志消息的主体。

我试图完成的是让这个BASH脚本解析具有跨越活动最后一个小时的条目的文件(如第1列和第2列中定义的),如果第4列包含字符串"ERROR",则显示最右边列的内容。当我试图确定如何解析基于$CURTIME$OLDTIME的日志文件时,我感到困惑,当午夜到来时,情况变得更糟,然后我不得不搜索前一天的日志文件。我不希望在所有的日志文件中执行全面的grep样式搜索,因为数量和大小可能会过大,但如果必须这样做,那就这样做吧。

 awk -F ' \| ' -v "d=$(date -d "1 hour ago" -u +%Y-%m-%d@%H:%M:%S)" '$3 == "ERROR" && $1"@"$2 > d'

这就像在awk中进行字符串比较一样简单。当您通过午夜,只需添加$OLDDATE文件到搜索:

if [ "$CURDATE" != "$OLDDATE" ]; then
   cat "kt$OLDDATE.root.log.txt" "kt$CURDATE.root.log.txt"
else
   cat "kt$CURDATE.root.log.txt"
fi | awk -F "|" -v olddate=$OLDDATE -v oldtime=$OLDTIME -v curdate=$CURDATE 'BEGIN{olddate=olddate " "; curdate = curdate " "; oldtime = " " oldtime " "}
$1 == olddate && $2 >= oldtime && $3 == " ERROR "{print $0}
$1 > olddate && $3 == " ERROR "{print $0}'

可以与glenn的解决方案组合使用,从而更短。

最新更新