MAX and MIN value of RDD[scala.collection.immutable.Map[Stri

在下面的代码中，我计算每个文档到KMeans集群中的集群质心的欧氏距离。我觉得欧几里得距离没有多大意义，所以我认为将其归一化为从 0 到 1 的尺度会更好。

不幸的是，我没有弄清楚如何对org.apache.spark.rdd.RDD[scala.collection.immutable.Map[String,Any]]数据类型进行排序或如何获取最大值/最小值。

事实上，这是一个RDD[Map[String,Double]]但我想它由于某种原因被转换为RDD[Map[String,Any]]。例如takeOrdered大多数方法会导致：

error：没有为 scala.collection.immutable.Map[String，Any] 定义隐式排序

我怎样才能教 Scala 如何对这张地图的任何值进行排序？任何提示都非常感谢。

谢谢

val score = rdd.map({case(id,vector) => {distToCentroid(id, vector, model_1)}})
// Normalizing the data with normalizeResult function.
// Problem I need to find the max and minimum beforehand        
def distToCentroid(id: String, datum: Vector, model: KMeansModel) = {
  val cluster = model.predict(datum)
  val centroid = model.clusterCenters(cluster)
  val distance = math.sqrt(centroid.toArray.zip(datum.toArray).map(p => p._1 - p._2).map(d => d * d).sum)
  Map("id" -> id, "distance" -> distance)
}
def normalizeResult(max: Double, min: Double, x: Double) = { 
  (x-min) / (max-min)
}

如果我理解正确，您需要全局最小值/最大值，存储在地图中。如果是这样，你可以把你的RDD展平化，并将其映射到RDD[Double]：

val values = rdd.flatMap(_.values.map(_.toDouble)).cache()
val min = values.min()
val max = values.max()

最简单的方法是首先将输出直接映射到正确的格式。

def distToCentroid(id: String, datum: Vector, model: KMeansModel) = { val cluster = model.predict(datum) val centroid = model.clusterCenters(cluster) val distance = math.sqrt(centroid.toArray.zip(datum.toArray).map(p => p._1 - p._2).map(d => d * d).sum) //Updated Outputs Map("id" -> id, "distance" -> distance.toDouble) }

然后，这应该允许您使用内置的 min 和 max 函数或使用您编写的函数。

相关内容

最新更新

热门标签：