如何处理Scikit-Learn中名称的数据



我即将尝试使用聚类算法到群集文件属性(例如访问时间)。

Scikit支持命名数据的聚类,即,在运行群集算法后如何检索文件名?

有没有办法将元数据存储在培训数据中,例如文件名?此元数据应在特征缩放,人工特征的引入等中幸存下来。

目前无法将名称或属性附加到Scikit-Learn中的行。这将很快改变(https://github.com/scikit-learn/scikit-learn/issues/4497)。但是就目前而言,要自己跟踪这一点真的很容易。数据点的顺序与您出现的群集标签的顺序相同,因此第一个群集标签对应于第一个文件名等

相关内容

  • 没有找到相关文章

最新更新