R-基于时间的多维数据聚类



我正在尝试根据一周的工作时间来对大量人进行聚类。这是我正在使用的数据的一个示例:

table, th, td {
    border: 1px solid black;
}
<table>
  <tr>
  <th>Name</th>
  <th>Monday (00:00 to 07:59)</th>
  <th>Monday (08:00 to 15:59)</th>
  <th>Monday (16:00 to 23:59)</th>
  </tr>
  <tr>
  <td>Guy1</td>
  <td>3</td>
  <td>5.5</td>
  <td>0.5</td>
  </tr>
  <tr>
  <td>Guy2</td>
  <td>0</td>
  <td>7</td>
  <td>2</td>
  </tr>
  <tr>
  <td>Guy3</td>
  <td>4</td>
  <td>4</td>
  <td>1</td>
  </tr>
</table>

我想根据其工作时间的模式找到集群。我与之合作的实际数据集具有超过10000行(不同的个体(,并具有42列(小时间隔(。我正在使用R-Studio。

我想看到不同个体的"配置文件",这将基于一周的工作时间模式的相似性。例如,也许一个人的工作时间集中在工作日的上午9点至下午6点,这表明他属于按日程安排定期的员工集群,而另一个人的工作时间则在夜间集中在夜间,表明该人在夜间工作。<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

请注意,我是一名尚未毕业的实习生,今天我才学会了R。这也是我的第一个stackoverflow问题,所以请我听起来无知或不知情。

首先,您可能想看看聚类的理论。为了看那个帖子。然后跟进一些R代码。

原因是因为聚类通常非常取决于您的数据以及您想要实现的目标。通常没有完美的解决方案,因此您必须评估自己是否足够好。

您可以对K-均值和层次聚类进行一些研究,互联网上有很多ressources。我最喜欢的是您可以在Rstudio的"帮助"选项卡中找到的R帮助。寻找hclustkmeans以获取这些功能如何工作的典范。

您还可以查看允许创建时间序列集群的hts。这可能会解决您在创建10k * 10k的矩阵距离时可能存在的问题。

最新更新