将 csv 数据准备为 ML



我想为分类问题实现ML模型。我的 csv 数据如下所示:

方法1;方法2;方法3;方法4;类别;类结果1; 结果2; 结果
3; 结果4;运动;12
...

所有方法,给出一个文本。有时它是一个单词,有时更多,有时单元格是空的(此方法没有答案)。列"类别"总是有一个文本,列"class"是一个数字,显示具有正确答案的方法的数量(即数字12表示只有方法1和2的结果是正确的)。如有必要,也许会添加更多列。

现在,从所有方法中获得新的答案,我想将其归类为其中一类。

我应该如何准备这些数据?我知道我应该有一个数字数据,但如何做到这一点,并处理所有空单元格,以及每个答案中的单词数量不一致?

我应该如何准备这些数据?我知道我应该有一个数字数据,但如何做到这一点,并处理所有空单元格,以及每个答案中的单词数量不一致?

有许多不同的方法可以做到这一点,但最简单的方法是只使用单词袋表示,这意味着连接所有Methodx列并计算每个单词在其上出现的次数。

这样,你就有了向量表示(每个单词都是一个列/特征,每个计数都是一个数值)。

现在,从这里开始有几个问题(主要是数据集中的列/特征数量将非常大),因此您可能需要进一步预处理数据或找到可以为您处理它的 ML 技术。但是,无论如何,我建议尝试查看有关NLP的几个教程,以更好地了解这一点,并更好地估计什么是数据集的最佳解决方案。

最新更新