我使用glob函数glob在常规Python下获取目录/文件名。
例如:
glob.glob("/dbfs/mnt/.../*/A*.txt")
但是,刚刚在 DBFS 下实现,完整路径名以/mnt 开头。但是在 Pyspark 下有没有一种方法,比如使用 glob 来获取文件目录/名称列表?
谢谢
如果你只想获取目录/名称列表,你只能在 Python 中执行此操作。 Pyspark 可以sc.textFile("/dbfs/mnt/.../*/A*.txt")
处理目录/名称列表,但不能返回它。
Pyspark 是一个处理引擎,而不是文件系统任务的框架。