如何读取目录中的前 5 个文件夹:Spark



我在目录下有一个文件夹列表(例如:2016/06/03/00/File.json.gz"))。目前我正在读取所有文件:

val df = sqlContext.jsonFile("s3://testData/2016/06/*/*/*") 
df.show()

但是我只想阅读 06 中的前 5 个文件夹(所有文件夹都像 01...30 - 天,每个文件夹都有小时文件夹 -00..23,其中包含 josnfiles)

我可以做这样的事情吗:

val df = sqlContext.jsonFile("s3://testData/2016/06/0*/*/*") 

我只想阅读 01、02、03、04、05 个文件夹(5 天),其余的就不读

有没有更好的方法可以做到这一点?

试试这个:

val df = sqlContext.jsonFile("s3://testData/2016/06/0[1-5]/*/*") 

相关内容

  • 没有找到相关文章

最新更新