聚类与WEKA的相互作用粒子



我有一个聚类问题,可以这样总结:

  • 我在 3D 空间中有 N 个粒子
  • 每个粒子可以与不同数量的其他粒子相互作用
  • 每次互动都有其优势
  • 我不知道先验的集群数量
  • 我没有倾斜样本(应该是无人监督的(

输出:我想得到:

  • 聚类数
  • 每个粒子成为集群一部分的概率(能够删除未明确分配的粒子(
  • 我想直接从我的 Java 代码调用集群器。

问题:

  • 哪种集群最适合我的问题?
  • 我应该如何格式化我的数据?
  • 我应该使用3D定位信息来补充交互信息吗?
  • 如何获得每个粒子的结果?

我对weka很陌生,但从我在互联网上找到的:

  • SOM可以解决我的问题
  • 这是一个多实例问题,但我可以找到任何显示如何创建关系数据的示例。 SOM 是否支持关系属性?

感谢您的帮助。让诺特

Weka 在聚类方面非常"有限"。它只有很少的聚类算法,而且它们非常有限。我不确定您是否可以将交互强度放入任何 Weka 聚类算法中。

你可能想看看ELKI。它具有比Weka更先进的聚类算法,并且非常灵活。例如,您可以轻松定义自己的距离函数(教程(,并在任何基于距离的聚类算法中使用它。

选择合适的聚类算法是我们在这里无法回答的。您需要尝试一些并尝试不同的参数。您应该首先尝试回答的关键问题是:对您有用的集群是什么

你已经开始提出其中的一些问题。例如,是仅使用交互强度,还是是否还要包含位置信息。但是由于我不知道你想要实现什么,所以我不能告诉你如何实现

一定要看看DBSCAN和OPTICS算法(特别是对于光学,不要使用Weka中的算法。它缓慢,不完整且未维护!也许开始阅读他们的维基百科文章,如果这对你的任务有任何意义的话。这就是为什么我相信它们对你有帮助:

  • 他们不需要知道聚类的数量(与 k 均值和 EM 聚类不同(
  • 他们需要一个"最小点"参数
  • ,该参数本质上是"最小聚类大小";它控制结果的细粒度。增加它以获得更少和更大的集群。
  • 它们可以使用任意距离或相似性函数(例如,交互强度(。对于DBSCAN,您需要设置一个阈值来考虑显著性,对于光学器件,这不是必需的。

接下来,我可能会使用光学的交互强度数据,并尝试集群的Xi提取,如果它们对您的用例有任何意义的话。(韦卡没有习近平的提取(。或者可以先看一下光学图,看看你的相似性和MinPts参数是否真的产生了光学所需的"谷"。DBSCAN 速度更快,但您需要修复距离阈值。如果您的数据集非常大,您可能希望从样本上的光学开始,然后确定几个 epsilon 值,并在具有这些值的完整数据集上运行 DBSCAN。

不过,请从这里开始阅读,看看这对您的任务是否有意义:

https://en.wikipedia.org/wiki/DBSCAN#Basic_idea

如果您根据 WEKA 的 ARFF 文件格式准备了数据,那么您可以使用 WEKA 资源管理器的 CLUSTER 选项卡。这会对数据进行聚类(无监督(,并为每个聚类的每个要素值提供阈值。对于无监督学习非常方便。

最新更新