我使用这里找到的命令训练了一个模型…
https://github.com/bakwc/JamSpell火车
英文文本没有问题。但我需要训练一个基于印地语语料库的类似模型。我有一个可以用sherlockholmes.txt
替换的文件,但我不确定我应该指什么而不是alphabet_en.txt
。
我应该在一个文本文件中收集所有在印地语中使用的Unicode字符吗?
是的,按照英语的例子,你应该收集语料库的印地语文本中使用的所有字符(这里存储在sherlockholmes.txt
文件中)。
我猜这些字符可以帮助算法找出哪些字符组成单词,哪些字符不是(例如标点符号)。