从Python的小样本中识别自然语言



使用Python,我想在一个短字符串列表(从1到大约50个单词)中识别法语文本,否则这些文本将是英语。

输入数据的示例(这里的输入字符串以逗号分隔):

year of the snake, legendary 'dragon horse', thunder, damsel-fly, larvae of mosquito, 
treillage, libellule, mythical water creature, petites chevrettes, de papillon hideux, 
the horse-fly, 5th earthly branch, dragon, mythical creature, 
a shore plant whose leaves dry a bright orange, dragon horse, god of rain, year of the dragon, 
orthopteran, crocodile, dont le duvet des ailes s'en va en poussière, insecte, dragonfly, 
dracontomelon vitiense, dragon king, petit filet pour une espèce de papillon, sorte d'insecte

理想情况下,我想使用一个已经构建的库,因为我知道这是一个难题。然而,Python中我最熟悉的自然语言库nltk似乎没有能力做到这一点,或者即使有,我也没有找到它。

我知道识别一两个单词可能非常困难,我宁愿出现假阴性(法语被误认为英语),也不愿出现假阳性。

解决这个问题有多种方法。更传统、更精确(但也容易出现新词问题)的方法是使用法语和英语的同义词典,检查短语是否在其中一种或另一种中找到(完全匹配或更多单词匹配)。

另一种方法是使用包进行语言检测。

另一种方法是使用ML语言模型对短语进行分类(例如,SpaCy lang_detect模型)。

相关内容

  • 没有找到相关文章

最新更新