我需要在pySpark中读取连续的文件。 以下内容对我有用。
from pyspark.sql import SQLContext
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)
如何读取文件 8-14?
使用大括号。
file = "events.parquet/exportDay=201509{08,09,10,11,12,13,14}"
这里有一个关于堆栈溢出的类似问题:Pyspark 使用正则表达式 glob 选择文件的子集。他们建议要么使用大括号,要么执行多次读取,然后将对象联合起来(无论它们是RDD还是数据帧或其他什么,都应该有某种方法)。
我相信它使用外壳通配。
帖子:如何将多个文本文件读入单个RDD?
似乎建议以下内容应该有效。
"events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]"