我有一个名为"ds_text_file"我试图过滤掉空白行(在某些文本段落之间,有空白行)。我尝试了几种不同的方法来做到这一点,但它不起作用,我画一片空白。任何帮助,这将是非常感激!以下是我尝试过的有意义的方法:
lines = sc.textFile(ds_text_file)
filteredLines = lines.filter(lambda x: len(x)>0)
我也试过了:
lines = sc.textFile(ds_text_file)
filteredLines = lines.filter(lambda x: len(x.split())>0)
你的空行很可能包含空格或制表符等白色字符。
试着过滤掉任何只包含空白的行:
filteredLines = sc.textFile(ds_text_file)
.filter(lambda x: re.match('^s*$', x) is None)