如何用平等记录拆分火花数据框



我正在使用df.randomsplit(),但它没有分为相等的行。还有其他方法可以实现吗?

在我的情况下,我需要平衡(相等大小)的分区才能执行特定的交叉验证实验。

通常您:

  1. 随机化数据集
  2. 应用模量操作将每个元素分配到折叠(分区)

在此步骤之后,您必须使用filter提取每个分区,AFAIK仍然没有转换将单个RDD分为许多。

这是Scala中的一些代码,它仅使用标准火花操作,因此应该很容易适应Python:

val npartitions = 3
val foldedRDD = 
   // Map each instance with random number
   .zipWithIndex
   .map ( t => (t._1, t._2, new scala.util.Random(t._2*seed).nextInt()) )
   // Random ordering
   .sortBy( t => (t._1(m_classIndex), t._3) )
   // Assign each instance to fold
   .zipWithIndex
   .map( t => (t._1, t._2 % npartitions) )
val balancedRDDList =  
    for (f <- 0 until npartitions) 
    yield foldedRDD.filter( _._2 == f )

相关内容

  • 没有找到相关文章

最新更新