从电子邮件中提取相关信息的最佳方法是什么?



我的朋友有一个小型企业,客户使用电子邮件订购服务。他每天收到几封电子邮件,然后通过整理它变得笨拙。

客户可以要求大约有10种不同的任务,每个任务都有一个或两个单词来指定它。电子邮件中存在的其他信息是将提供服务,时间和相关人员的名字的地方。该电子邮件还包含一个ID,一个具有相当标准格式的长号码。

这些电子邮件非常非结构,但都包含上面的关键信息。我的问题是:浏览这些电子邮件并提取关键信息的最佳方法是什么(例如服务类型,地点,人的名字,ID等)?

我考虑了某种预处理,然后通过Alchemyapi将其传递,然后使用神经网络为每个功能测试炼金术输出(关键信息)。可以监督学习,因为我可以一直进行反馈循环,因为一旦输入信息,我就可以有人验证。

有什么想法吗?谢谢

我猜我可以通过正则表达式和字典匹配来捕获某些部分(ID,任务,时间)。看看Gate的Jape工具。

组装词典应该很容易很好)。

对于匹配位置和人们的名字,您应该小心,如果姓名和位置在定义明确的句子中使用,并且可能会以某种表格或怪异的格式犯更多的错误,则OpenCalais和Alchemyapi可以为您提供良好的结果。另外,您永远无法确定自己正确地捕获了该地点和人,因此不要直接依靠该地点来处理订单。

如果您有有关邮件的结构或预期名称和地点的更多信息(即,您有一个带有所有可能名称的"客户端"表),则可能要执行自己的标签,否则我会坚持使用OpenCalais或Alchemyapi 一些正则表达式。

P.S。我认为所有邮件都是英文。

相关内容

  • 没有找到相关文章

最新更新