gcp-dlp-python/当列不包含字符串时如何减少likelyhood



我有一个数字客户端id要查找。我创建了一个自定义信息类型:

custom_info_types = [
{
"info_type": {"name": "CLIENTID"},
"regex": {"pattern": r'd{7,8}'},
}
]

不出所料,这份工作中有很多发现,而且都很有可能。

为了减少调查结果,我想在";反向";mode:如果没有字符串";cli"在列名中,然后减少likelyhood。

在文献中有关于如何做相反的事情的例子,但由于每个发现都有一个";VERY_ LIKELY";就像胡德一样,这没有帮助。

hotword_rule = {
"hotword_regex": {"pattern": "(?i)(.*cli.*)(?-i)"},
"likelihood_adjustment": {
"fixed_likelihood": dlp_v2.Likelihood.VERY_LIKELY
},
"proximity": {"window_before": 1},
}

有什么解决方案可以做我想做的事吗?

谢谢你的帮助!

为了实现这一点,您需要将custom_info_type的默认可能性设置为VERY_UNLIKELY,然后保持热词规则不变。这样,如果某个内容匹配,它将标记为CCD_;cli"在这种情况下它将提升到CCD_ 3。

类似于:

custom_info_types = [
{
"info_type": {"name": "CLIENTID"},
"regex": {"pattern": r'd{7,8}'},
"likelihood": "VERY_UNLIKELY"
}
]

如果在custom_info_type定义中将似然性留空,则它默认为VERY_LIKELY

让我知道这是否有效。

最新更新