如何处理文本和数字特征的组合



看Kaggel的工作工资预测,我看到了数字特征(如Category)和文本特征(如FullDescription)。

我如何在这样的数据上进行训练?我考虑过使用TfidfTransformer对文本进行矢量化,但是它创建了许多学习算法(如RandomForestRegressor)拒绝使用的稀疏矩阵。此外,一旦我有了文本的特征向量,我如何将其与其他特征结合起来?

关于如何使用这些数据的任何指针?

谢谢!

我将首先在每个文本字段的tf-idf特征上独立学习线性模型,并将线性模型的预测作为附加特征添加到其他特征上,并在组合特征上训练ExtraTreesRegressorGradientBoostedTreeRegressor

相关内容

  • 没有找到相关文章

最新更新