我正在做一个分类短文本的项目。我有一个要求是随着向量化的短文本,我想添加额外的功能,如文本的长度,url的数量等为每个输入的功能。
是否支持scikit-learn?链接到任何示例笔记本或视频都很有帮助。
谢谢,Romit .
你可以使用FeatureUnion类来组合由不同转换器提取的特征(例如,一个转换器提取word包(BoW)特征,另一个转换器提取其他统计数据)。
这些特征的归一化以及相对于不同BoW特征的数量而言的小数量可能是有问题的。这是否是个问题取决于下游训练的模型所做的假设,以及特定的数据和目标任务。
我没有使用FeatureUnion类。然而,我的方法更简单,更直接。从自定义管道中提取功能,并将其与从scikit-learn管道中提取的功能附加在一起。这只是在numpy/scipy中添加数组。
注意事项:a)你必须记住从自定义管道中提取的特征id是什么。这将帮助您追加数组,而不会混淆。b)你必须(根据需要)对你的自定义管道特性进行规范化。
解决方案:编写一个自定义特征提取器类。