当我尝试将其放入kmeans聚类时,它会抛出错误"ValueError:使用序列设置数组元素"。
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=5)
kmeans.fit(df)
阵列描述。 名称: 矢量, 长度: 179, dtype: 对象
0 [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,0.0, 0.0, ...
1 [0.0
, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ... 10 [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,0.0, 0.0, ...
100 [0.0
, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...101 [0.0
, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...您的列中有一个列表。在将其传递给 KMean 之前,需要将其打开为多个列。
df = pd.read_json('/Users/roshansk/Downloads/NewsArticles.json')
#Extracting the vectors into columns
vectors = df.Vector.apply(pd.Seriesies)
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=5)
kmeans.fit(vectors)