小贝子编程

是否有规则来确定使用海量数据集进行情绪分析的字典大小

本文关键字：字典有规则数据集用海是否 python machine-learning nlp
更新时间 : 2023-09-11
英文 : Is there a rule for deciding dictionary size for sentiment analysis with massive datasets?

我将对小说进行情感分析。我将处理大约300本350页的书。我可以通过忽略不太常用的单词来限制字典大小吗？如果是这样，定义大小的规则是什么？

我不相信有任何这样的"规则"。如果你打算使用深度学习，我认为唯一的限制因素是，由于记忆/时间限制，你能用多少个单词进行训练。但是门槛您可以通过限制为最常见单词的子集来获得接近最佳的准确性。我认为如果您正在处理一种语言，大约 50000 个单词将是一个合理的开始。如果您需要更好的性能，您可以从那里扩展词汇量。

最新更新

CSS Sticky属性在本演示中不起作用
NodeJs与xmlrpc服务器通信，并对node-xmlrpc库进行base64编码，将下载的url图像编码为base
在管道中使用powershell如何使用在azure devops中触发的管道运行来获取shelvesset编号.<
我希望在表格单元格内的左、右位置的同一行中有不同的文本
Entity Framework ExecuteDelete没有按预期工作
颤振只加载某些riv (.riv)文件
Python问题我如何循环回我的代码?
asyncpg.exceptions.InvalidAuthorizationSpecificationError Py
为什么我的阅读更多按钮不工作?
如何得到拆分字符后的单词
在列表框之间移动项
设置 SKEmitterNode 的 'targetNode' 会导致奇怪的 'zPosition' 行为
我无法在斐波那契数列 python 中加强术语
用Jest测试使用jquery获取数据的异步函数
c#与HTML敏捷包不能得到div类的值
Python 中的 OOP 层次结构
我如何动画下拉菜单的高度使用顺风css
无法从字符串比较失败的字符串中删除"—"
无法获取熊猫数据帧中的第一列值
Odoo添加按钮应该重定向到我的模块视图
r语言 - 我如何得到比例在数据表没有组号重复?
无法使用 conda env 导入 OCI 笔记本会话中的模型配置详细信息
c - while循环中VSC的分段错误
无法将url数据获取到模型类中
如何将DataGridTextColumn绑定到WinUI3中绑定的对象中的方法?
错误在cobol程序上打开VB文件来处理XML文件
while循环在python中没有爆发
yii2查询具有多个非和或的数据提供程序
Libgdx:渲染方法
Pycharm 错误：预期类型 [类名] 改为"str"

是否有规则来确定使用海量数据集进行情绪分析的字典大小

相关内容

最新更新

热门标签：