给定一个包含形式数据的大文件,(V1,V2,…,VN)
2,5
2,8,9
2,5,8
...
我正在尝试使用Spark 实现类似于以下的配对列表
((2,5),2)
((2,8),2)
((2,9),1)
((8,9),1)
((5,8),1)
我尝试了在回答一个老问题时提到的建议,但我遇到了一些问题。例如,
val dataRead = sc.textFile(inputFile)
val itemCounts = dataRead
.flatMap(line => line.split(","))
.map(item => (item, 1))
.reduceByKey((a, b) => a + b)
.cache()
val nums = itemCounts.keys
.filter({case (a) => a.length > 0})
.map(x => x.trim.toInt)
val pairs = nums.flatMap(x => nums2.map(y => (x,y)))
我得到了错误,
scala> val pairs = nums.flatMap(x => nums.map(y => (x,y)))
<console>:27: error: type mismatch;
found : org.apache.spark.rdd.RDD[(Int, Int)]
required: TraversableOnce[?]
val pairs = nums.flatMap(x => nums.map(y => (x,y)))
^
有人能告诉我我可能做错了什么吗?或者有什么更好的方法可以做到这一点?非常感谢。
您可以使用数组的组合方法来实现此目标。
val dataRead = sc.textFile(inputFile)
// "2,5"
// "2,8,9"
// "2,5,8"
// ...
val combinations = dataRead.flatMap { line =>
line.split(",") // "2,8,9" => Array(2,8,9)
.combinations(2) // Iterator
.toSeq // ~ Array(Array(2,8), Array(2,9), Array(8,9))
.map{ case arr => arr(0) -> arr(1) } // Array((2,8), (2,9), (8,9))
}
// Array((2,5), (2,8), (2,9), (8,9), (2,5), (2,8), (5, 8), ...)
val result = combinations.map(item => item -> 1) // Array(((2,5),1), ((2,9),1), ...)
.reduceByKey(_ + _)
// Array(((2,5),2), ((2,8),2), ((2,9),1), ((8,9),1), ((5,8),1) ....)
// order may be different.
我不确定是否得到了您所需要的,我用滑动窗口从每行提取成对的数字,例如从第2行、第8行、第9行提取2对:(2,8)&(8,9)。如果你需要一些其他配对提取,你需要将滑动(2)更新为其他
val dataRead = sc.textFile(this.getClass.getResource("/text.txt").getFile)
// Extract tuples from each line
val tuples: RDD[(Int, Int)] = dataRead.flatMap(_.split(",").sliding(2)).map {
case Array(l, r) => (l.toInt, r.toInt)
}
val count = tuples.countByValue()
count.foreach(println)
输出
((2,5),2)
((8,9),1)
((5,8),1)
((2,8),1)
基本上,您试图在(Int, Int)
上执行WordCount作为键,而不是String
,这是常见的示例。
因此,这里的目的是将您的行转换为(Int, Int)
元组:
val pairs = sc.textFile(inputFile)
.map(line => line.split(","))
.flatMap(a => a.sliding(2))
.map(a => (a(0).toInt, a(1).toInt) -> 1)
.reduceByKey(_ + _)
您可以通过滑动2个音程来提取单词对。有些句子只能有一个单词,所以你必须在map函数中有合适的匹配大小写。
val mapRdd = sc.textFile("inputFile.csv")
.map { line => line.split(" ") }
.flatMap { wordList => wordList.sliding(2) }
.map {
case Array(word1, word2) => ((word1, word2), 1)
case Array(word1) => ((word1, ""), 1)
}
.reduceByKey(_ + _)
println("===================================================")
mapRdd.foreach { li =>
println(li._1.toString() + " ---> " + li._2)
//println(li.sliding(2).foreach(li => println(li.toList)))
}