具有挑战性的缩写正则表达式



对于我正在进行的项目,我想在文本中首次引入缩写时识别它们。

例如:

他在丹麦国家银行工作。

(…)

民主党全国委员会是一个伟大的雇主。

应匹配DNB作为丹麦国家银行的缩写。并非所有缩写都是大写字母:

2012年,《马戏团工作人员平等待遇法》(此后:LetCW)出台。

应该返回摘录LetCW。做到这一点的最佳方法是什么?我目前正在考虑删除";在此之后;然后在括号前取与可疑缩写中的字母相同数量的单词。

编辑:另一个有趣的例子是一个单词的缩写,即:

缩写(Abbr)

缩写(Abvn)

这是一个NLP问题,但它并没有给我留下regex问题的印象——这似乎不是最合适的工具。

您似乎想要解析一个令牌流,并识别可能是缩写的有前景的令牌。例如,它们可以是括号分隔的或逗号分隔的。令人烦恼的是,一旦停止语("the"、"即"、"after this")被删除,它们可能会立即出现在定义短语之前或之后。识别潜在缩写的一种启发式方法是区分大小写匹配,显示英语词典中的非成员身份。

在确定了一个潜在的缩写标记后,你会想扫描它的近邻,看看你是否可以用附近的单词来解释它,最好只使用它们的首字母。对于一个真正具有挑战性的数据集,您可以尝试解释DARPA的backronyms。

若要从另一个方向进行处理,您可以尝试应用word2vec。在这里,它将是短语2vec,挑战将是可缩放地识别与潜在缩写标记具有非常非常小余弦距离的多词短语。

最新更新