是否有一种可靠的方法来自动检测电子邮件中的按钮和确认代码?



我发现我手机上接收短信的自动复制代码功能非常好,我希望在我的电子邮件中实现类似的功能。到目前为止,我已经能够将传入的电子邮件挂钩到一个函数中,并使用node-imap解析它们,但我正在与实际的代码自动检测作斗争。

例如,有的验证码是6个数字/大写字母,如123X4Y。有些短一些,有些长一些,所以我随意地写了一个正则表达式b[0-9A-Z]{5,12}b(我从5开始,因为许多电子邮件在底部有一个版权日期,是4个数字)。这可以很好地工作,但不能捕获所有代码,偶尔会捕获不相关的信息。

此外,很多时候,电子邮件只是包含一个大大的"Confirm"而不是代码。或";Verify"按钮。在这些情况下,我目前只是在链接文本或href中寻找带有confirm或verify字样的链接,但这在大多数情况下也会失败。

我想知道是否有任何方法可以更可靠地从电子邮件中捕获动作按钮和确认码!

如果没有某种计算机视觉,就没有可靠的方法来检测电子邮件中的按钮,因为它们可以有无限多种形式(带锚点的填充表格单元格,样式锚点等)。

你可以用一点NLP来获得确认码——你可以采用一种简单的方法,只查找像"confirm"或";验证;或者你可以利用NER(命名实体识别)模型来识别电子邮件中的确认码。

作为NER的替代方案,您可以简单地在主题行的编码向量上运行朴素贝叶斯分类器,以识别电子邮件是否包含确认码。如果你能识别出这封邮件是一封"确认"邮件;电子邮件,你可以插入上面的正则表达式并解析出代码。

最新更新