所以我有一个 [UID obj1 obj2..] x timestamp 形式的数据,我想使用 sklearn 的 kmeans 在 python 中聚类这些数据。我应该从哪里开始?
编辑:
所以基本上我尝试根据点击流数据对用户进行聚类,并根据使用模式对他们进行分类。
您可以根据原始数据并使用 RFM 分析等方法添加更多要素。RFM = 新近度、频率、货币
例如:
How often the user logged in?
The last time the user logged in?
您可以使用 Python 库 Retentioneering (github(,它允许您使用简单的命令根据点击流数据对用户进行聚类。您还可以指定对集群感兴趣的任何目标事件,并使用交互式图表浏览获得的图形。
data.rete.get_clusters(method='kmeans',
feature_type='tfidf',
n_clusters=8,
ngram_range=(1,2),
plot_type='cluster_bar',
targets=['payment_done','cart']);
用户聚类的结果
接下来,您可以使用交互式图探索获得的行为集群:
clus_0 = data.rete.filter_cluster(0)
clus_0.rete.plot_graph(thresh=0.1,
weight_col='user_id',
targets = {'lost':'red',
'payment_done':'green'})
图形可视化示例