看Kaggel的工作工资预测,我看到了数字特征(如Category)和文本特征(如FullDescription)。
我如何在这样的数据上进行训练?我考虑过使用TfidfTransformer对文本进行矢量化,但是它创建了许多学习算法(如RandomForestRegressor)拒绝使用的稀疏矩阵。此外,一旦我有了文本的特征向量,我如何将其与其他特征结合起来?
关于如何使用这些数据的任何指针?
谢谢!
我将首先在每个文本字段的tf-idf特征上独立学习线性模型,并将线性模型的预测作为附加特征添加到其他特征上,并在组合特征上训练ExtraTreesRegressor
或GradientBoostedTreeRegressor
。