读取 pySpark 中的文件范围



我需要在pySpark中读取连续的文件。 以下内容对我有用。

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何读取文件 8-14?

使用大括号。

file = "events.parquet/exportDay=201509{08,09,10,11,12,13,14}"

这里有一个关于堆栈溢出的类似问题:Pyspark 使用正则表达式 glob 选择文件的子集。他们建议要么使用大括号,要么执行多次读取,然后将对象联合起来(无论它们是RDD还是数据帧或其他什么,都应该有某种方法)。

我相信它使用外壳通配。

帖子:如何将多个文本文件读入单个RDD?

似乎建议以下内容应该有效。

"events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]"

相关内容

  • 没有找到相关文章

最新更新