是否可以在无监督的学习中将数据与分组的数据组群集



我正在努力为无监督的学习算法设置数据。该项目的目的是根据网站上的行为将不同的客户组合在一起。显然,某种类型的聚类算法最适合在我们看不到人类的数据中发现模式。

但是,该数据库为每个客户(按时间顺序排列(包含多个行,用于该访问的每个行动。例如,具有ID#123的客户在时间X时单击第1页,这将是数据库中的一行,然后同一客户在时间y处单击另一个页面。这将使数据库中的另一个行。

我的问题是在给定情况下,您将使用哪种算法或方法进行聚类?K均在这种类型的问题上确实很受欢迎,但是由于分组,我不知道在这种情况下是否可以使用。是否可以围绕一个包含多个行的一个特定ID进行聚类分析?

我应该接受的任何帮助/无监督学习的方向。

简称

  1. 学习每个事件的固定嵌入(表示(;
  2. 学习一种将此类嵌入序列组合到每个事件中的单个表示中的方法,然后使用您喜欢的无监督方法。

对于(1(,您可以手动执行或使用编码器/解码器;对于(2(,您可以做很多事情,范围从每次事件的平均嵌入到重建原始事件的编码序列并进行中间表示方面的编码器训练(该解码器用于重建(原始序列(。

关于此主题的很好的阅读(尽管有点旧;您现在也可以选择变压器网络(:

语言的表示:从单词嵌入到句子含义

最新更新