我有以下代码;
test_df = (spark.read
.schema(newSchema)
.option("header", "true")
.option("delimiter", "t").csv("wasbs://container@AzureStorageAcc.blob.core.windows.net/dir1/dir2/2021/02/05/"))
但这似乎不起作用。是否有其他的方法来读取tsv.gz作为一个火花数据框架?
尝试从命令中删除.format("cloudFiles")
,这仅用于处理结构化流,我怀疑它可能会干扰.csv
。