小贝子编程

如何处理文本和数字特征的组合

本文关键字：数字特征组合文本何处理处理 python scikit-learn
更新时间 : 2023-08-26
英文 : How to deal with combination of text and numeric features?

看Kaggel的工作工资预测，我看到了数字特征(如Category)和文本特征(如FullDescription)。

我如何在这样的数据上进行训练?我考虑过使用TfidfTransformer对文本进行矢量化，但是它创建了许多学习算法(如RandomForestRegressor)拒绝使用的稀疏矩阵。此外，一旦我有了文本的特征向量，我如何将其与其他特征结合起来?

关于如何使用这些数据的任何指针?

谢谢!

我将首先在每个文本字段的tf-idf特征上独立学习线性模型，并将线性模型的预测作为附加特征添加到其他特征上，并在组合特征上训练ExtraTreesRegressor或GradientBoostedTreeRegressor。

最新更新

Cplex - 第一个要访问的车站必须是不符合下限和上限标准的车站
HMAIL服务器没有收到来自本地主机的邮件
使用来自 ngrx 存储选择器的可观察量的自定义异步验证器不会返回 'null'，除非我输入 take(1) 运算符
在这种情况下如何更新有状态小部件的状态?
不要在 Wordpress 上的 save_post 中自动保存期间运行代码
关闭下拉列表时如何从中删除 .active 类<div>？ jquery
所选组件不应该显示菜单
给定"显示变量，如"%version%;"的输出，我如何确定我应该使用哪种语法？
如何处理来自消息体API响应的GZIP字符串?
OAuth2和PKCE - Code验证器无效
GCP 的 CloudSQL - 重新创建现有的只读副本
当解引用指针OCaml时，匹配总是成功的
如何使用cx_Oracle解析oracle过程中的TAB TYPE OUT
如何列出numpy array中的最低值
我如何在脚本中定义tracery来生成随机句子?
如何使用yapf保持参数都在一行?
试图在底部填充溢出
如何使用Matplotlib在圆中绘制未定义数量的随机点
如何在vscode中选择同一个词的所有引用
使用Ansible jinja2 list特性返回的结果比使用Ansible hostvars返回的结果更多
Laravel Eloquent，如何在3个表上访问Eloquent ?
我怎样才能让我的Angular应用允许在生产环境中刷新——重写URL ?
VBS 和 WSH 在简单循环和 CPU 过度使用时出现错误
ComboBox VirtualizingStackPanel WPF Programmatically
如何在使用聚合函数时忽略字符
如何解决多线程静态变量增量?
webpack-streams breaks @types/webpack
为BASH中的单词数组加边框
如何阻止不需要的功能组件被调用?依赖关系在哪里?
列表中字符串字符之间的比较

如何处理文本和数字特征的组合

相关内容

最新更新

热门标签：