如何识别人类发送的电子邮件



我正在做一个项目,在这个项目中,我需要识别真人发送的电子邮件,而不是批量邮件、通知和时事通讯。有什么确切的方法可以做到这一点吗?电子邮件标题中有任何信息可以帮助您吗。我在Gmail IMAP上工作,所以我已经有了非垃圾邮件。

感谢在这方面提供的任何帮助。谢谢

没有明确的方法来区分批量邮件和个性化邮件。与垃圾邮件不同,大多数批量邮件都是请求/期望的,因此发件人不会做一些奇怪的事情来绕过垃圾邮件过滤器,这意味着这些电子邮件通常可以很好地融合在一起。

然而,你可以寻找一些趋势。如果你想可靠地做到这一点,你可能需要应用一些评分系统,就像垃圾邮件过滤器一样

你还需要接受这样一个事实,即你一定会得到相当大比例的假阳性和假阴性。

批量邮件中常见的一些东西在个性化信件中不太常见:

  1. "收件人"one_answers"抄送"地址不包含本地收件人。有时发件人会发送到"mailList@mydomain.com"而不是"recipientA@recipientAdomain.com","recipientB@recipientBdomain.com等。在这些情况下,也可能只有一个地址出现在"收件人"中,而"抄送"中没有显示任何内容
  2. "发件人"地址是"noreply@"、"时事通讯"、"不回复"、"mailinglist@",甚至是"支持@"或"销售@"等不太常见的术语(但请记住,它们可能会导致误报)
  3. 存在"列出取消订阅:"标题
  4. 邮件包含一个取消订阅链接。运行模式匹配,在电子邮件的最后几行中查找常见短语。查找链接,或诸如"取消订阅"、"选择退出"等词语
  5. 邮件列表往往内容丰富。检查是否大量使用CSS和大量图像,整个消息包含在<table></table><ul><li></li></ul>结构中。比如Dreamweaver之类的东西,而不是邮件客户端
  6. 邮件顶部的标题或粗体内容。如果消息的第一部分类似于时事通讯,那么它很可能就是时事通讯
  7. 大量链接或频繁链接到相同(或少数)的网站。时事通讯将尽可能地引导用户访问公司的网站。如果链接的域与发件人域匹配(或相似),您可能会对此得分更高
  8. 大量提及社交媒体。如果是一份包含多篇文章的时事通讯,每个故事可能都有自己的"推特这个"、"喜欢这个"链接。个人用户可能(最多)在签名中包含一个对Twitter、Facebook等的引用
  9. 通知和其他自动生成的消息通常遵循相同的基本格式。如果您有能力,请与以前的消息进行某种困难或其他比较。强有力的匹配意味着自动化
  10. 没有问候语或通用问候语。然而,个人电子邮件通常也会跳过"亲爱的弗雷德"部分,所以这本身还不够好;但像"亲爱的用户"或"亲爱的客户"这样的东西几乎可以肯定是通用的
  11. 不太可能以"问候,伊恩"或"你真诚的,无名氏"结尾
  12. 发件人以前得分很高。做好记录。如果发件人多次触发高分,那么几乎可以肯定他们是批量邮件

相关内容

最新更新