我如何使用正则表达式在JSON文档中提取数据

我不是Regex专家。我试图了解是否可以使用Regex从JSON文件中找到一块数据块。

我的场景：

我正在使用增强监控的AWS RDS实例。监视数据正在发送到CloudWatch日志流。我正在尝试使用CloudWatch中发布的数据在日志管理解决方案loggly中可见。

摄入没有问题，我可以在loggly中看到数据。但是，整个消息包含在一个大斑点字段中。字段内容是JSON文档。我试图弄清楚我是否可以使用正则表达式来提取JSON文档的某些部分。

这是我正在使用的JSON有效载荷中的示例提取物：

{
    "engine": "MySQL",
    "instanceID": "rds-mysql-test",
    "instanceResourceID": "db-XXXXXXXXXXXXXXXXXXXXXXXXX",
    "timestamp": "2017-02-13T09:49:50Z",
    "version": 1,
    "uptime": "0:05:36",
    "numVCPUs": 1,
    "cpuUtilization": {
        "guest": 0,
        "irq": 0.02,
        "system": 1.02,
        "wait": 7.52,
        "idle": 87.04,
        "user": 1.91,
        "total": 12.96,
        "steal": 2.42,
        "nice": 0.07
    },
    "loadAverageMinute": {
        "fifteen": 0.12,
        "five": 0.26,
        "one": 0.27
    },
    "memory": {
        "writeback": 0,
        "hugePagesFree": 0,
        "hugePagesRsvd": 0,
        "hugePagesSurp": 0,
        "cached": 505160,
        "hugePagesSize": 2048,
        "free": 2830972,
        "hugePagesTotal": 0,
        "inactive": 363904,
        "pageTables": 3652,
        "dirty": 64,
        "mapped": 26572,
        "active": 539432,
        "total": 3842628,
        "slab": 34020,
        "buffers": 16512
    },

我的问题

我的问题是，我可以使用Regex提取，例如文档的子集吗？例如，CPU利用率或内存等？如果可能的话，我该如何编写正则表达式？如果可能的话，我可以使用它来深入提取文档以获取单个数据元素。

非常感谢您的帮助。

首先，我同意塞巴斯蒂安：适当的JSON解析器更好。

无论如何，有时必须使用肮脏的方法。如果您的文本布局不会更改，则REGEXP很简单：

例如。"total": (d+.d+)获取CPU使用量和"total": (ddd+)总内存使用情况（匹配至少3位数字不匹配第一个总文本，内存可能永远不会小于100： - ）。

如果可以预期更改会使其更加稳定：["']total["']s*:s*(d+.d+)。

也可能可以再次匹配这样的返回字符："cpuUtilization"s*:s*{s*n.*ns*"irq"s*:s*(d+.d+)使其更稳定（这次是IRQ值）。

等等。

您会发现您可以快速进入非常复杂的表情。这种方法非常脆弱！

P.S。根据loggy的正则详细信息，细节可能会改变。上面的示例基于perl。

相关内容

最新更新

热门标签：