我应该研究机器学习的哪个领域来自动从消息中提取某些信息



我有一个应用程序,可以从传入消息中提取信息。这些消息都包含相同的信息,但根据发送消息的来源,它们有不同的形式。

示例:

来自源A:的消息

A: You spent $50.00 at Macy's on 2/20/12

来自来源B:的消息

Purchase, $50.00, Macy's, 2Feb2012, Balance $5000.00

不过,来自单个来源的每条消息都具有相同的形式。因此,目前,我通过编写一组正则表达式来完成这项工作,首先识别我试图解码的消息(即,它来自什么来源,这样我就知道消息的形式),然后从消息中提取必要的信息(在上面的示例中,我想知道交易金额、交易发生的商店和日期)。如果我发现消息的新源,或者源更改了消息的格式(这种情况不经常发生,但可能发生),我需要手动编写该消息的正则表达式。然而,我确信我可以使用某种机器学习技术将其自动化。我对机器学习了解不多,甚至不知道从哪里开始寻找适用于我的问题的技术。我希望有人能为我指明正确的阅读方向。

为了检测和标记金额、日期、人名和类似信息,您可以使用一种名为命名实体识别的技术。斯坦福命名实体识别器配有经过预训练的现成模型。您还可以使用迄今为止生成的任何标记数据来学习应用程序的自定义模型。用于此目的的标准技术是条件随机场或序列感知器。有许多实现这些模型的工具包,包括:

  • Wapiti-一个简单快速的判别序列标记工具包
  • 基于Collins(2002)感知器的Sequor序列贴标机

最新更新