监督学习中的分类器训练需要多少记录



嗨,我是机器学习的新手.我想训练一个 KNN 分类器,数据集有 50 条完整记录(无缺失值(和 103 条不完整记录(包括缺失值(

我想问的是,这个数据集对于分类目的来说是可以辩护的。 还是应该搜索一些新的数据集?

我正在附加我的数据集中的一些屏幕截图..POS 是数据集中的标注分类。

数据集截图

如果你的特征空间的大小是n,即输入列的数量,而不是一个k*n,其中k>= 3,完整的样本量应该是大量的数据。

您还可以考虑使用平均值或任何其他外推方法插补数据(缺失值(。

有时提倡的一种粗略的启发式方法是 数据点应不小于 5 或 10 的某个倍数(例如 5 或 10( 模型中自适应参数的数量。- 主教,第9页

选择安全的数据集,如scikit learn本身提供的默认"鸢尾花数据集"您还可以在 UCI 机器学习存储库中搜索良好的数据集。

最新更新