我使用 Python 3 和 sklearn 构建了一个垃圾邮件分类器。对于垃圾邮件/火腿分类,我使用了支持向量机,它具有相当好的准确性(~99%)
我现在面临的问题是,一旦我对火腿邮件进行了分类,我想自动对它们进行分类,例如:与政治相关的邮件,与音乐相关的邮件等,并将它们放入特定的存储桶中。
挑战是我无法使用特定类型的邮件来训练算法,因为我不知道哪种邮件可能会落在我的收件箱中,所以我被困在这个阶段。如果有人可以分享一些解决方法,那就太好了。谢谢。
你可以看看潜在的狄利克雷分配(主题建模技术)。但是此模型将返回未标记的电子邮件组。