我有一个文件夹,其中包含SQL文件(用于架构)和zipped文件(CSV文件),我想将使用相同架构读取的文件读取一个数据框架,因此对于不同的模式,pyspark
中的帧。
我的文件夹结构看起来像这样:
abc.sql
abc1.gz
abc2.gz
def.sql
def1.gz
def2.gz
等等...
如何继续
您只需要添加inferSchema
参数并将其设置为True
:
data = spark.read.csv([DATA_PATH], inferSchema = True, header = True, sep = ";")