我不是Regex专家。我试图了解是否可以使用Regex从JSON文件中找到一块数据块。
我的场景:
我正在使用增强监控的AWS RDS实例。监视数据正在发送到CloudWatch日志流。我正在尝试使用CloudWatch中发布的数据在日志管理解决方案loggly中可见。
摄入没有问题,我可以在loggly中看到数据。但是,整个消息包含在一个大斑点字段中。字段内容是JSON文档。我试图弄清楚我是否可以使用正则表达式来提取JSON文档的某些部分。
这是我正在使用的JSON有效载荷中的示例提取物:
{
"engine": "MySQL",
"instanceID": "rds-mysql-test",
"instanceResourceID": "db-XXXXXXXXXXXXXXXXXXXXXXXXX",
"timestamp": "2017-02-13T09:49:50Z",
"version": 1,
"uptime": "0:05:36",
"numVCPUs": 1,
"cpuUtilization": {
"guest": 0,
"irq": 0.02,
"system": 1.02,
"wait": 7.52,
"idle": 87.04,
"user": 1.91,
"total": 12.96,
"steal": 2.42,
"nice": 0.07
},
"loadAverageMinute": {
"fifteen": 0.12,
"five": 0.26,
"one": 0.27
},
"memory": {
"writeback": 0,
"hugePagesFree": 0,
"hugePagesRsvd": 0,
"hugePagesSurp": 0,
"cached": 505160,
"hugePagesSize": 2048,
"free": 2830972,
"hugePagesTotal": 0,
"inactive": 363904,
"pageTables": 3652,
"dirty": 64,
"mapped": 26572,
"active": 539432,
"total": 3842628,
"slab": 34020,
"buffers": 16512
},
我的问题
我的问题是,我可以使用Regex提取,例如文档的子集吗?例如,CPU利用率或内存等?如果可能的话,我该如何编写正则表达式?如果可能的话,我可以使用它来深入提取文档以获取单个数据元素。
非常感谢您的帮助。
首先,我同意塞巴斯蒂安:适当的JSON解析器更好。
无论如何,有时必须使用肮脏的方法。如果您的文本布局不会更改,则REGEXP很简单:
例如。"total": (d+.d+)
获取CPU使用量和"total": (ddd+)
总内存使用情况(匹配至少3位数字不匹配第一个总文本,内存可能永远不会小于100: - )。
如果可以预期更改会使其更加稳定:["']total["']s*:s*(d+.d+)
。
也可能可以再次匹配这样的返回字符:"cpuUtilization"s*:s*{s*n.*ns*"irq"s*:s*(d+.d+)
使其更稳定(这次是IRQ值)。
等等。
您会发现您可以快速进入非常复杂的表情。这种方法非常脆弱!
P.S。根据loggy的正则详细信息,细节可能会改变。上面的示例基于perl。