我在python中尝试使用监督学习时遇到了一个问题。我有一系列的x,y坐标,我知道它们属于一个数据集中的一个标签。在另一个中,我只有x,y坐标。我将使用一个集合来训练另一个集合,我的方法是监督学习,并使用分类算法(线性判别分析),因为标签的数量是离散的。尽管它们是离散的,但数量很大(n=~80000)。我的问题是,在回归更适合连续标签的情况下,我应该考虑回归而不是分类的标签数量。我使用SciKit作为我的机器学习包,并使用astronml.org的优秀教程作为指南。
这与数字无关。这是关于是否连续。如果你有80000个甚至更多的课程,这并不重要;只要相邻类之间没有相关性(例如类i和i+1),就应该使用分类(而不是回归)。
只有当标签是连续的(例如实数),或者至少当相邻类之间存在相关性时,回归才有意义(例如,当标签显示某个东西的计数时,你可以进行回归,然后将结果四舍五入)。