当有多个文本特征需要输入时，如何处理支持向量机和文本数据

我正在进行NLP项目，在该项目中，我有多个功能要提供给SVM模型。所有要输入的功能都是文本。如果只有一个特征要输入，我们可以将该特征提供为X，并将相应的标签提供为Y用于训练模型，但我如何才能将多个特征提供为模型的X输入？数据集格式

目前，我正在尝试将参数"Questions"one_answers"WhWord"作为输入，将"CoarseType"作为标签。由于它们是文本数据，在应用算法之前，我必须应用TfidfVectorizer。看起来TfidfVectorizer不支持X=多个功能的想法。我该如何处理？这是我在做的事。

features=['Questions','WhWord']
X = df.loc[:,features].values
y = df.CoarseType
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state = 42)
model = Pipeline([('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(SVC(C=1, kernel='sigmoid'))),   
])
model.fit(X_train, y_train)

您可以展示您的数据集以更好地理解您的问题吗。据我了解你的问题-你可以简单地使用loc函数和Y=target创建它，比如X=所有参数，然后将其用于像model.fit(X，Y(这样的算法(我在这里写模型只是为了让你理解(

相关内容

最新更新

热门标签：