小贝子编程

如何为sklearn CountVectorizer设置自定义停止词

本文关键字：自定义设置 CountVectorizer sklearn python machine-learning scikit-learn nlp
更新时间 : 2023-08-25
英文 : How to set custom stop words for sklearn CountVectorizer?

我正在尝试在非英语文本数据集上运行LDA (Latent Dirichlet Allocation)。

在sklearn的教程中，有这一部分是计算输入LDA的单词的词频:

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                            max_features=n_features,
                            stop_words='english')

它有内置的停词功能，我想只有英语才有。我该如何使用我自己的停词表呢?

您可以直接为stop_words分配您自己编写的list，例如:

stop_words = (["word1", "word2","word3"])

最新更新

我怎样才能让我的Angular应用允许在生产环境中刷新——重写URL ?
VBS 和 WSH 在简单循环和 CPU 过度使用时出现错误
ComboBox VirtualizingStackPanel WPF Programmatically
如何在使用聚合函数时忽略字符
如何解决多线程静态变量增量?
webpack-streams breaks @types/webpack
为BASH中的单词数组加边框
如何阻止不需要的功能组件被调用?依赖关系在哪里?
列表中字符串字符之间的比较
即使在我执行 commit() 和 autocommit=True 之后，也无法使用 psycopg2 脚本更新 PostgreSQL 表
在x秒后在两个函数之间切换
从对象数组中提取属性，并通过lodash创建基于此属性的另一个?
sectionIndexTitles映射不能正常工作
Apache commons CSVPrinter正在编码双值
coinex交换API，并使用Curl /BASH来放置市场订单加密对
询问直到输入在列表中?
Cant 将 2D 数组传递给函数 C++
如何同步外表和本表?
我如何显示另一个实体链接到主一个在html.twig?
Material UI自动完成列表框样式没有影响
数组中的参数类型问题('float'， 'const int')
编译错误在VS Studio编译Fortran代码
无法解析身份验证凭证
Google Maps API查找详细信息
是否有一种方法可以访问npm包内的方法?
将类添加到viewport中的元素
检查JavaScript变量类型是否有键
将动态Github工作流矩阵与输入值和预定义值相结合
需要构造一个API列表数组
jQuery的美元语法与美元符号JavaScript "convention"

如何为sklearn CountVectorizer设置自定义停止词

相关内容

最新更新

热门标签：