在使用UMAP、HDBScan和BERT句子转换器时，打印出集群上点的文本值

我看到过许多类似的问题，但我的集群标签由句子嵌入组成，因此一个更好的问题可能是我如何从句子嵌入中获得文本值?

我如何从我的句子嵌入打印文本输出?

umap_embeddings = umap.UMAP(n_neighbors=50, 
n_components=5, 
metric='cosine').fit_transform(embeddings)
cluster = hdbscan.HDBSCAN(min_cluster_size=3,
metric='euclidean',                      
cluster_selection_method='eom').fit(umap_embeddings)
# Prepare data
umap_data = umap.UMAP(n_neighbors=15, n_components=2, min_dist=0.0, metric='cosine', random_state=24).fit_transform(embeddings)
result = pd.DataFrame(umap_data, columns=['x', 'y'])
result['labels'] = cluster.labels_
# Visualize clusters
fig, ax = plt.subplots(figsize=(20, 10))
outliers = result.loc[result.labels == -1, :]
clustered = result.loc[result.labels != -1, :]
plt.scatter(outliers.x, outliers.y, color='#202020', s=25)
plt.scatter(clustered.x, clustered.y, c=clustered.labels, s=25, cmap='hsv_r'

)

一些先前的答案已经建议;

textdata_with_label_113 = textData[clusterer.labels_ == 113]

但是，这会返回与文本值相反的嵌入值。

在这个问题上花了更多的时间，我意识到嵌入与原始DF的顺序相同。

因此你可以很容易地返回。

lbls=[]
#seperate the clustered labels into seperate lists (0,1,2,3) 
for x in range(len(clustered.labels)):
lbls.append(clustered[clustered.labels == x]) 
df_desc=[]
# extract the rows from the data frame using the lbls list and use column 6 only in my case
for x in range(len(lbls)):
df_desc.append(df.iloc[lbls[x].index,5])
for i in range(4):
txt = "Cluster {number}"
print(txt.format(number = i)) 
print(df_desc[i])

相关内容

最新更新

热门标签：