如何从RDD获取包含任何数字的行数



>文档的行如下:

I am 12 year old.
I go to school.
I am playing.
Its 4 pm.

文档中有两行包含数字。我想计算文档中有多少行数字?

这将在scala spark中实现。

 val lineswithnum=linesRdd.filter(line => (line.contains([^0-9]))).count()

我希望输出为 2 .但我得到 0

您可以使用

exists方法:

val lineswithnum=linesRdd.filter(line => line.exists(_.isDigit)).count()

按照您最初的方法,不要忽视其他答案:

val textFileLines = sc.textFile("/FileStore/tables/so99.txt")
val linesWithNumCollect = textFileLines.filter(_.matches(".*[0-9].*")).count

添加 .* 是为了在行字符串中捕获。

最新更新