我在目录下有一个文件夹列表(例如:2016/06/03/00/File.json.gz"))。目前我正在读取所有文件:
val df = sqlContext.jsonFile("s3://testData/2016/06/*/*/*")
df.show()
但是我只想阅读 06 中的前 5 个文件夹(所有文件夹都像 01...30 - 天,每个文件夹都有小时文件夹 -00..23,其中包含 josnfiles)
我可以做这样的事情吗:
val df = sqlContext.jsonFile("s3://testData/2016/06/0*/*/*")
我只想阅读 01、02、03、04、05 个文件夹(5 天),其余的就不读
了有没有更好的方法可以做到这一点?
试试这个:
val df = sqlContext.jsonFile("s3://testData/2016/06/0[1-5]/*/*")