将 csv 数据准备为 ML

我想为分类问题实现ML模型。我的 csv 数据如下所示：

方法1;方法2;方法3;方法4;类别;类结果1; 结果2; 结果
3; 结果4;运动;12
...
。

所有方法，给出一个文本。有时它是一个单词，有时更多，有时单元格是空的(此方法没有答案)。列"类别"总是有一个文本，列"class"是一个数字，显示具有正确答案的方法的数量(即数字12表示只有方法1和2的结果是正确的)。如有必要，也许会添加更多列。

现在，从所有方法中获得新的答案，我想将其归类为其中一类。

我应该如何准备这些数据？我知道我应该有一个数字数据，但如何做到这一点，并处理所有空单元格，以及每个答案中的单词数量不一致？

我应该如何准备这些数据？我知道我应该有一个数字数据，但如何做到这一点，并处理所有空单元格，以及每个答案中的单词数量不一致？

有许多不同的方法可以做到这一点，但最简单的方法是只使用单词袋表示，这意味着连接所有Methodx列并计算每个单词在其上出现的次数。

这样，你就有了向量表示(每个单词都是一个列/特征，每个计数都是一个数值)。

现在，从这里开始有几个问题(主要是数据集中的列/特征数量将非常大)，因此您可能需要进一步预处理数据或找到可以为您处理它的 ML 技术。但是，无论如何，我建议尝试查看有关NLP的几个教程，以更好地了解这一点，并更好地估计什么是数据集的最佳解决方案。

相关内容