我有一个ADLS,它有几个文件夹,里面有子文件夹等等,直到我们有CSV或Parquet数据为止。
如何使用databricks中的文件格式获取此文件夹中的文件夹名称和子文件夹?还有一些垃圾文件夹,我根本不想考虑,比如Folder123、Folder_dummy等。
建议请。。
您可以在不知道所有可能的文件夹名称的地方添加通配符。例如,如果你想从嵌套路径查询镶木地板文件,你可以使用
select * from parquet.`{Your ADLS folder}/*/{SomeSpecificFolder}/{your parquet}.parquet`
您可以使用通配符进行任何扩展,只要您知道要查询的镶木地板,并单独使用Databricks/Spark SQL 指定名称即可