字母表文件在NLP中是如何处理的?



我使用这里找到的命令训练了一个模型…

https://github.com/bakwc/JamSpell火车

英文文本没有问题。但我需要训练一个基于印地语语料库的类似模型。我有一个可以用sherlockholmes.txt替换的文件,但我不确定我应该指什么而不是alphabet_en.txt

我应该在一个文本文件中收集所有在印地语中使用的Unicode字符吗?

是的,按照英语的例子,你应该收集语料库的印地语文本中使用的所有字符(这里存储在sherlockholmes.txt文件中)。

我猜这些字符可以帮助算法找出哪些字符组成单词,哪些字符不是(例如标点符号)。

最新更新