将缩写词提取到其原始单词的算法



我正在构建一个程序来进行一些文本分析。

我猜将缩写单词解压缩到其原始单词将提高我的分析的准确性。但是我不知道要实现它。我在谷歌上搜索了一下,但找不到任何讨论这个问题的文章或论文。(或者也许我只是不知道要搜索的正确关键字(

基本上我需要的是:给定一个单词 W,从字典(未缩写单词列表(中找到一个最有可能成为 W 未缩写版本的单词。(可选(我希望算法与印度尼西亚语兼容。

我的问题有点类似于这个SO问题:一种字符串搜索算法,可以快速匹配大量未缩写字符串中的缩写?,但这个问题尽管在2010年被问到,但这个问题没有得到回答。

那么,知道吗?提前感谢!

在没有任何印尼语知识的情况下,我的第一步是获取常用缩写列表,然后简单地进行字典查找。

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation

如何决定选择哪个扩展包本身就是一罐蠕虫。 我可以快速想出的例子很好,因为它们是词性的不同部分,所以选择形容词适合句子的形容词;但在一般情况下,您只需要处理一些缩写确实模棱两可的事实,就像有模棱两可的单词一样。 毕竟,也许根本不会扩展这些。

对于字典中没有的缩写,我会简单地在单词列表中查找它们,也许带有频率和/或词性信息,以便您可以选择最可能/最受欢迎的一个如果有多个前缀匹配。 如果没有这些信息,我会使用粗略的启发式方法来选择最短的匹配。

上下文是带有缩写的所有内容。您的"最高概率"匹配几乎肯定会与缩写的上下文与扩展的(预期(上下文匹配的匹配。

当然,问题在于有很多可能的上下文,正如某些缩写具有数十种可能的扩展所显示的那样。尝试定义缩写的上下文也存在困难。

您也许可以将其限制为仅说 10-20 个不同的上下文,然后进行相当粗略的匹配。我很确定它会有很高的错误率。手动添加/验证上下文还需要大量工作。

最新更新