小贝子编程

如何使用scikit-learn对文本进行分类

本文关键字：分类文本何使用 scikit-learn python machine-learning scikit-learn
更新时间 : 2023-09-07
英文 : How to use scikit-learn to classify text

我想通过使用scikit-learn对两个文本进行分类。但我想自己提取特征。就像在CountVectorizer上使用英语的stop_words='english'停止单词列表一样。如何设置我自己的单词列表让计数矢量器计数？

您可以在 CountVectorizer 中为 stop_words 参数提供自己的停用词列表，它不会计算您不希望它在 scikit-learn 的输入文本中计数的单词。例如，如果我不希望将"cat"、"dog"和"elephant"等单词用作标记，我会将 CountVectorizer 实例化为：

CountVectorizer(stop_words=['cat','dog', elephant'])

希望有帮助。

最新更新

我可以"plain"使用具有永久链接设置的 REST API 吗？
为什么无法控制台.log使用反向顺序索引打印 [-1]
测试谷歌表插件触发器
调试错误!Abort()已被调用.Visual Studio中的错误
查询查找具有给定权重的商品的订单
OpenID连接-授权代码流与新的谷歌身份JS API
如何将列表转换为单独的字符串?
Git克隆错误:RPC失败- curl 28操作太慢
无法将"可观察"类型的类型值<Store>转换为预期的参数类型"可观察<存储？>
使用 pybing11 覆盖 python 内置'print'
是否有一种方法可以通过mysqlworkbench更改存储过程所需的权限?
将这些变量按顺序排序(将单词转换为与其长度相等的数字).(使用条件)
为什么 Python 无法为我识别"kivy"模块？
在联合收割机中链接n个请求
如何通过回调管理生存期
左连接返回的行数少于左表上的select * ?
"List index out of range" for Django Steam API
Java正则表达式从Jasper文本字段的HTML标签中删除样式
在python中更改列表中的变量(回溯)
Laravel/PHP:条件日期过滤器
多个yaml文件在ros2启动
与来自无线电和复选框的JS一起添加两个值以获得总数
Python -仅显示4位序列的圆锥序列
在使用Zeep通过代理访问SOAP时更改服务URL
无法导入节点模块
VueJs 3 - Vuex: Uncaught TypeError: store不是函数
Textarea视觉元素?
日志记录不输出调试和信息日志
试图在R上安装地球引擎;Python =3.1不可用
如何在我的代码中添加一些项目，例如"Favorite"？

如何使用scikit-learn对文本进行分类

相关内容

最新更新

热门标签：