小贝子编程

读取 pySpark 中的文件范围

我需要在pySpark中读取连续的文件。以下内容对我有用。

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何读取文件 8-14？

使用大括号。

file = "events.parquet/exportDay=201509{08,09,10,11,12,13,14}"

这里有一个关于堆栈溢出的类似问题：Pyspark 使用正则表达式 glob 选择文件的子集。他们建议要么使用大括号，要么执行多次读取，然后将对象联合起来（无论它们是RDD还是数据帧或其他什么，都应该有某种方法）。

我相信它使用外壳通配。

帖子：如何将多个文本文件读入单个RDD？

似乎建议以下内容应该有效。

"events.parquet/exportDay=2015090[89]，events.parquet/exportDay=2015091[0-4]"

相关内容