小贝子编程

在Spark MLlib中，如何用Python将BisectingKMeansModel保存到HDFS

本文关键字：BisectingKMeansModel 保存 HDFS Python 何用 MLlib Spark pyspark apache-spark-mllib
更新时间 : 2023-09-15
英文 : In Spark MLlib, How to save the BisectingKMeansModel with Python to HDFS?

在Spark MLlib中，pyspark中的BisectingKMeansModel没有保存/加载功能。为什么？如何用Python将BisectingKMeans模型保存或加载到HDFS？

它可能是您的spark版本。对于平分，建议k_meas大于2.1.0。

您可以在pyspark.ml.clustering.BisectingKMeans类中找到一个完整的示例，希望它能有所帮助：

https://spark.apache.org/docs/2.1.0/api/python/pyspark.ml.html#pyspark.ml.clustering.BisectingKMeans%20featuresCol=%22features%22，%20预测Col=%22预测%22

示例代码的最后一部分包括一个模型保存/加载：

model_path = temp_path + "/bkm_model"
model.save(model_path)
model2 = BisectingKMeansModel.load(model_path)

它也适用于hdfs，但在保存模型之前，请确保temp_path/bkm_model文件夹不存在，否则会出现错误：

(java.io.IOException: Path <temp_path>/bkm_model already exists)

相关内容