将缩写词提取到其原始单词的算法

我正在构建一个程序来进行一些文本分析。

我猜将缩写单词解压缩到其原始单词将提高我的分析的准确性。但是我不知道要实现它。我在谷歌上搜索了一下，但找不到任何讨论这个问题的文章或论文。(或者也许我只是不知道要搜索的正确关键字(

基本上我需要的是：给定一个单词 W，从字典(未缩写单词列表(中找到一个最有可能成为 W 未缩写版本的单词。(可选(我希望算法与印度尼西亚语兼容。

我的问题有点类似于这个SO问题：一种字符串搜索算法，可以快速匹配大量未缩写字符串中的缩写？，但这个问题尽管在2010年被问到，但这个问题没有得到回答。

那么，知道吗？提前感谢！

在没有任何印尼语知识的情况下，我的第一步是获取常用缩写列表，然后简单地进行字典查找。

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation

如何决定选择哪个扩展包本身就是一罐蠕虫。我可以快速想出的例子很好，因为它们是词性的不同部分，所以选择形容词适合句子的形容词;但在一般情况下，您只需要处理一些缩写确实模棱两可的事实，就像有模棱两可的单词一样。毕竟，也许根本不会扩展这些。

对于字典中没有的缩写，我会简单地在单词列表中查找它们，也许带有频率和/或词性信息，以便您可以选择最可能/最受欢迎的一个如果有多个前缀匹配。如果没有这些信息，我会使用粗略的启发式方法来选择最短的匹配。

上下文是带有缩写的所有内容。您的"最高概率"匹配几乎肯定会与缩写的上下文与扩展的(预期(上下文匹配的匹配。

当然，问题在于有很多可能的上下文，正如某些缩写具有数十种可能的扩展所显示的那样。尝试定义缩写的上下文也存在困难。

您也许可以将其限制为仅说 10-20 个不同的上下文，然后进行相当粗略的匹配。我很确定它会有很高的错误率。手动添加/验证上下文还需要大量工作。

相关内容