如何在Pyspark中使用不同的模式读取不同的CSV文件



我有一个文件夹,其中包含SQL文件(用于架构)和zipped文件(CSV文件),我想将使用相同架构读取的文件读取一个数据框架,因此对于不同的模式,pyspark中的帧。

我的文件夹结构看起来像这样:

abc.sql
abc1.gz
abc2.gz
def.sql
def1.gz
def2.gz

等等...

如何继续

您只需要添加inferSchema参数并将其设置为True

data = spark.read.csv([DATA_PATH], inferSchema = True, header = True, sep = ";")

相关内容

  • 没有找到相关文章

最新更新