命名实体识别 promlem 将文本"next monday"标识为日期?



我是文本挖掘和NLP的新手。我正在尝试使用命名实体识别(NER)(斯坦福命名实体标签)从给定的文本中提取日期。我正在使用斯坦福大学NLP提供的在线演示http://nlp.stanford.edu:8080/ner/process和GATE ANNIEhttp://services.gate.ac.uk/annie/

此演示无法将完整的"上周日"、"下周一"、"本月底"、"直到本周日晚上"等文本识别为日期。仅星期天或星期一对确定日期没有用处。有没有任何选项可以提取给定示例文本中提到的实际文本?

示例文本:

用彪马犒劳自己,因为它提供公寓五折优惠。赶紧优惠有效期至本周日。快乐购物。

提取日期:2013年8月25日(考虑到今天是2013年08月19日。日期格式可以是任何格式)

任何库都提供这种日期识别功能,或者是否可以建立自定义模型来识别示例文本中给出的日期?

斯坦福大学的SUTime CoreNLP可以进行时间识别。该页面包含示例代码,并在此处提供了在线演示。

相关问题:对大数据使用stanford时态标记器好吗?

GATE中的Tagger_DateNormalizer插件可以做到这一点,默认情况下,它会根据今天的日期来规范相对日期表达式。您可以使用sourceOfDocumentDate参数覆盖此项,以获取文档功能或管道中上一步创建的注释的参考日期,而不是使用当前日期(例如,如果您正在处理新闻文章,您可能希望根据发布日期而不是管道运行的日期进行标准化)。

虽然该插件被称为日期"归一化器",但它实际上是一个"标记器和归一化器"——它在文本中找到日期表达式并用归一化值对其进行注释,而不是采用预先存在的Date注释列表并对其进行归一化。

最新更新