您好,我正在尝试使用 kibana 脚本字段中的正则表达式获取日志消息的子字符串。我遇到了一个有趣的场景,但没有加起来。我将消息字段转换为关键字,以便可以对其执行脚本化字段操作。
当我与条件匹配时,例如:
if (doc['message'].value =~ /(b(?:d{1,3}.){3}d{1,3}b)/) {
return "match"
} else {
return "no match"
}
这将匹配 ip 并正确返回消息中存在 ip。但是,每当我尝试执行将匹配的文本拆分为子字符串的匹配器函数时,它都找不到任何匹配项。
按照 Elastic 文档的指南进行操作,请参见此处: https://www.elastic.co/blog/using-painless-kibana-scripted-fields
这是他们提供的示例脚本,用于匹配日志消息中 ip 的第一个八位字节。但是,当日志消息中确实存在 IP 地址时,这将不返回匹配项。无论我做什么,我什至不能只匹配文本字符,它都会返回 0 个匹配项。
我也在我的集群的 elasticsearch.yml 中启用了 rexex。
def m = /^([0-9]+)..*$/.matcher(doc['message'].value);
if ( m.matches() ) {
return Integer.parseInt(m.group(1))
} else {
return m.matches() + " - " + doc['message'].value;
}
这将返回 0 个匹配项。即使我使用与条件相同的表达式:
/(\b(?:\d{1,3}.){3}\d{1,3}\b)/
匹配器仍将返回 false。
根据文档,知道我在这里做错了什么,这应该有效。
当值存在于 if 条件中时,我尝试使用 subs-string,但日志消息之间存在许多变化。如果我只对脚本字段使用条件,我也看不到拆分和查看输出列表以选择带有 ip 的输出的方法。
关于如何解决这个问题的任何想法:
这是返回表单的示例
def m = /^([0-9]+)..*$/.matcher(doc['message'].value);
if ( m.matches() ) {
return Integer.parseInt(m.group(1))
} else {
return m.matches() + " - " + doc['message'].value;
}
有趣的是,它们都返回 false,这本质上只是在查找带有 . 我尝试了各种正则表达式组合,但没有运气。
[
{
"_id": "VRYK_2kB0_nHZ_3qyRwt",
"Source-IP": [
"false - #Version: 1.0"
]
},
{
"_id": "VhYK_2kB0_nHZ_3qyRwt",
"Source-IP": [
"false - 2019-02-17 00:34:11 127.0.0.1 GET /status/web - 8611 - 127.0.0.1 ELB-HealthChecker/2.0 - 200 0 0 31"
]
},
{
"_id": "VxYK_2kB0_nHZ_3qyRwt",
"Source-IP": [
"false - #Software: Microsoft Internet Information Services 10.0"
]
},
{
"_id": "WBYK_2kB0_nHZ_3qyRwt",
"Source-IP": [
"false - #Date: 2019-03-26 00:00:08"
]
},
{
"_id": "WRYK_2kB0_nHZ_3qyRwt",
"Source-IP": [
127.0.0.1 ELB-HealthChecker/2.0 - 200 0 0 15"
]
},
{
最终结果如下:
if (doc["message"].value != null) {
def m = /(b(?:d{1,3}.){3}d{1,3}b)/.matcher(doc["message"].value);
if (m.find()) { return m.group(1) }
else { return "no match" }
}
else { return "NULL"}