小贝子编程

字母表文件在NLP中是如何处理的?

本文关键字：处理何处理文件 NLP 字母表 machine-learning nlp
更新时间 : 2023-09-22
英文 : How an alphabet file is processed in NLP?

我使用这里找到的命令训练了一个模型…

https://github.com/bakwc/JamSpell火车

英文文本没有问题。但我需要训练一个基于印地语语料库的类似模型。我有一个可以用sherlockholmes.txt替换的文件，但我不确定我应该指什么而不是alphabet_en.txt。

我应该在一个文本文件中收集所有在印地语中使用的Unicode字符吗?

是的，按照英语的例子，你应该收集语料库的印地语文本中使用的所有字符(这里存储在sherlockholmes.txt文件中)。

我猜这些字符可以帮助算法找出哪些字符组成单词，哪些字符不是(例如标点符号)。

最新更新

Rails新命令给出错误
WordPress表单提交问题
如何使用pack创建左、右和中心框架?
在Django Rest框架中通过属性或自定义字段来排序模型
获取下面字符串中倒数第二个单词
连接所有JSON对象字符串值
如何了解tensorflow模型的tensorflow版本?
如何使用queryInterface.bulkUpdate从Sequelize当有必要检查一个键是否存在于jsonb列?
jQuery Datatables 按钮：['excel'] 在 document.ready() 中构建表时不起作用，但在动态构建表时起作用
r语言 - 我如何创建一个新的列，根据两个列中的行分配的条件值?
在Django中从文件路径生成媒体url
Python:为什么我在这两个问题上得到typeerror ?(递归)
每秒请求数
在Swagger UI中是否有一种方法可以在POST上隐藏某个字段(例如Employee ID)，但在PATCH和GET
c语言 - MISRA 要求函数的单点出口用于"lookup table"函数
如何在处理git分支时忽略文件
字符串自定义日期时间格式解析c#
SQL中基于日期的运行总数
在json对象中选择正确的单词
如何使用ansible打开SSH隧道?
PHP make if语句从表中返回新行
SwiftUI：Foreach in List - 有什么优势？
如何加载所有转储附加的字典在python pickle?
Jmeter语言 - 当前活动线程
Java作用域问题:try-catch块，解析字符串到日期
如何在主应用中获得UWP应用服务的通知?
复选框的定位
弹簧启动-采用与2个ymls不同的属性
Symfony 5.3+翻译提供商Crowdin不更新本地文件
从文本文件(.txt)中读取字节数组

字母表文件在NLP中是如何处理的?

相关内容

最新更新

热门标签：