我即将尝试使用聚类算法到群集文件属性(例如访问时间)。
Scikit支持命名数据的聚类,即,在运行群集算法后如何检索文件名?
有没有办法将元数据存储在培训数据中,例如文件名?此元数据应在特征缩放,人工特征的引入等中幸存下来。
目前无法将名称或属性附加到Scikit-Learn中的行。这将很快改变(https://github.com/scikit-learn/scikit-learn/issues/4497)。但是就目前而言,要自己跟踪这一点真的很容易。数据点的顺序与您出现的群集标签的顺序相同,因此第一个群集标签对应于第一个文件名等