当有多个文本特征需要输入时,如何处理支持向量机和文本数据



我正在进行NLP项目,在该项目中,我有多个功能要提供给SVM模型。所有要输入的功能都是文本。如果只有一个特征要输入,我们可以将该特征提供为X,并将相应的标签提供为Y用于训练模型,但我如何才能将多个特征提供为模型的X输入?数据集格式

目前,我正在尝试将参数"Questions"one_answers"WhWord"作为输入,将"CoarseType"作为标签。由于它们是文本数据,在应用算法之前,我必须应用TfidfVectorizer。看起来TfidfVectorizer不支持X=多个功能的想法。我该如何处理?这是我在做的事。

features=['Questions','WhWord']
X = df.loc[:,features].values
y = df.CoarseType
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state = 42)
model = Pipeline([('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(SVC(C=1, kernel='sigmoid'))),   
])
model.fit(X_train, y_train)

您可以展示您的数据集以更好地理解您的问题吗。据我了解你的问题-你可以简单地使用loc函数和Y=target创建它,比如X=所有参数,然后将其用于像model.fit(X,Y(这样的算法(我在这里写模型只是为了让你理解(

最新更新