哪种机器学习算法最适合用于对一维数值特征(标量值)进行聚类?是桦木,光谱聚类,k均值,DBSCAN...还是别的什么?
所有这些方法都更适合多变量数据。除了历史上用于一维数据的 k 均值外,它们在设计时都考虑到了多元问题,并且没有一个针对一维数据的特定情况进行了很好的优化。
对于一维数据,请使用核密度估计。KDE 在 1D 中是一个很好的技术,具有强大的统计支持,并且很难用于多维聚类。
看看 K 均值聚类算法。该算法非常适合对一维特征向量进行聚类。但 K 意味着当训练数据集中存在异常值时,聚类算法不能很好地工作,在这种情况下,您可以使用一些高级机器学习算法。
我建议在为您的数据集和问题陈述实现机器学习算法(分类、聚类等)之前,您可以使用 Weka 工具包来检查哪种算法最适合您的问题陈述。Weka工具包是大量机器学习和数据挖掘算法的集合,可以轻松实现给定的问题。确定哪种算法最适合您的问题后,您可以修改或编写自己的算法实现。通过调整它,您甚至可以实现更高的准确性。你可以从这里下载weka。