我正在将LogisticRegression文本分类从单词特征升级到双词特征(两个词特征)。然而,当我在发给帕齐的公式中包含两个单词的特征时。dmatrices,我收到以下错误…
y, X = dmatrices("is_host ~ dedicated + hosting + dedicated hosting", df, return_type="dataframe")
File "<string>", line 1
dedicated hosting
^
SyntaxError: unexpected EOF while parsing
我在网上找了一些关于如何处理这个问题的例子,但没有找到任何东西。我尝试了几种不同的语法选项在公式,似乎没有一个工作。
"is_host ~ dedicated + hosting + {dedicated hosting}"
"is_host ~ dedicated + hosting + (dedicated hosting)"
"is_host ~ dedicated + hosting + [dedicated hosting]"
在传递给矩阵的公式中包含多词特征的正确方法是什么?
你想:
y, X = dmatrices("is_host ~ dedicated + hosting + Q('dedicated hosting')", df, return_type="dataframe")
Q
是quote的缩写