Spark-随机数生成

我写了一个方法，必须考虑一个随机数来模拟伯努利分布。我使用random.nextDouble生成一个介于0和1之间的数字，然后在给定概率参数的情况下根据该值做出决定。

我的问题是Spark在for循环映射函数的每次迭代中都会生成相同的随机数。我正在使用DataFrame API。我的代码遵循以下格式：

val myClass = new MyClass()
val M = 3
val myAppSeed = 91234
val rand = new scala.util.Random(myAppSeed)
for (m <- 1 to M) {
  val newDF = sqlContext.createDataFrame(myDF
    .map{row => RowFactory
      .create(row.getString(0),
        myClass.myMethod(row.getString(2), rand.nextDouble())
    }, myDF.schema)
}

这是类别：

class myClass extends Serializable {
  val q = qProb
  def myMethod(s: String, rand: Double) = {
    if (rand <= q) // do something
    else // do something else
  }
}

每次调用myMethod时，我都需要一个新的随机数。我还尝试在我的方法中用java.util.Random生成数字（scala.util.Random v10没有扩展Serializable），如下所示，但我仍然在每个循环中获得相同的数字

val r = new java.util.Random(s.hashCode.toLong)
val rand = r.nextDouble()

我做了一些研究，这似乎与Sparks的确定性有关。

只需使用SQL函数rand:

import org.apache.spark.sql.functions._
//df: org.apache.spark.sql.DataFrame = [key: int]
df.select($"key", rand() as "rand").show
+---+-------------------+
|key|               rand|
+---+-------------------+
|  1| 0.8635073400704648|
|  2| 0.6870153659986652|
|  3|0.18998048357873532|
+---+-------------------+

df.select($"key", rand() as "rand").show
+---+------------------+
|key|              rand|
+---+------------------+
|  1|0.3422484248879837|
|  2|0.2301384925817671|
|  3|0.6959421970071372|
+---+------------------+

根据这篇文章，最好的解决方案不是将new scala.util.Random放在地图内，也不是完全放在地图外（即在驱动程序代码中），而是放在中间mapPartitionsWithIndex:中

import scala.util.Random
val myAppSeed = 91234
val newRDD = myRDD.mapPartitionsWithIndex { (indx, iter) =>
   val rand = new scala.util.Random(indx+myAppSeed)
   iter.map(x => (x, Array.fill(10)(rand.nextDouble)))
}

重复相同序列的原因是，在对数据进行分区之前，随机生成器是用种子创建和初始化的。然后，每个分区从相同的随机种子开始。也许不是最有效的方法，但以下方法应该有效：

val myClass = new MyClass()
val M = 3
for (m <- 1 to M) {
  val newDF = sqlContext.createDataFrame(myDF
    .map{ 
       val rand = scala.util.Random
       row => RowFactory
      .create(row.getString(0),
        myClass.myMethod(row.getString(2), rand.nextDouble())
    }, myDF.schema)
}

使用Spark数据集API，可能用于累加器：

df.withColumn("_n", substring(rand(),3,4).cast("bigint"))

相关内容

最新更新

热门标签：