从空白文本中提取有意义的单词

我没有做太多NLP，但有一个需求。例如，对于字符串"australiafreedomrally"，我需要自动提取有意义的单词，即"australia"、"freedom"one_answers"rally"。

有没有什么python包可以做到这一点？感谢

看看这个线程，其中提到了一个包可以做到这一点。一般来说，一个预定义的常用词列表的方法可以让你走得更远。你的问题与光学字符识别(OCR(后校正的任务有重叠，你可以找到一些预训练的模型，尽管问题强烈地转向一个问题(缺少空白字符(可能会导致它的性能不太好。

如果你想真正进入这个主题，你可以尝试在这个任务上训练一个新的模型，我可以想象，最近流行的对未知单词使用子标记级嵌入的transformer模型可以被训练来在这个任务中带来不错的性能，因为有一些模型的方向与语法校正和句子边界校正相似。也有一些较老的、基于规则的方法论文将这个问题称为"；字边界检测"；或者更具体地"；凝集"；，退房，例如。https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6351975/，但通常情况下，您为该问题找到的现成解决方案的数量相当低。

相关内容

最新更新

热门标签：