我没有做太多NLP,但有一个需求。例如,对于字符串"australiafreedomrally",我需要自动提取有意义的单词,即"australia"、"freedom"one_answers"rally"。
有没有什么python包可以做到这一点?感谢
看看这个线程,其中提到了一个包可以做到这一点。一般来说,一个预定义的常用词列表的方法可以让你走得更远。你的问题与光学字符识别(OCR(后校正的任务有重叠,你可以找到一些预训练的模型,尽管问题强烈地转向一个问题(缺少空白字符(可能会导致它的性能不太好。
如果你想真正进入这个主题,你可以尝试在这个任务上训练一个新的模型,我可以想象,最近流行的对未知单词使用子标记级嵌入的transformer模型可以被训练来在这个任务中带来不错的性能,因为有一些模型的方向与语法校正和句子边界校正相似。也有一些较老的、基于规则的方法论文将这个问题称为";字边界检测";或者更具体地";凝集";,退房,例如。https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6351975/,但通常情况下,您为该问题找到的现成解决方案的数量相当低。