如何过滤文本文件中的空行- Spark RDD



我有一个名为"ds_text_file"我试图过滤掉空白行(在某些文本段落之间,有空白行)。我尝试了几种不同的方法来做到这一点,但它不起作用,我画一片空白。任何帮助,这将是非常感激!以下是我尝试过的有意义的方法:

lines = sc.textFile(ds_text_file)
filteredLines = lines.filter(lambda x: len(x)>0)

我也试过了:

lines = sc.textFile(ds_text_file)
filteredLines = lines.filter(lambda x: len(x.split())>0)

你的空行很可能包含空格或制表符等白色字符。

试着过滤掉任何只包含空白的行:

filteredLines = sc.textFile(ds_text_file)
.filter(lambda x: re.match('^s*$', x) is None)

最新更新