在 DSX 上导入 SparkSession 数据帧



我目前正在研究数据科学体验,并希望将CSV文件导入为SparkSession DataFrame。我能够成功导入数据帧,但是,所有列属性都转换为字符串类型。如何使此 DSX 功能识别 CSV 文件中存在的类型?

目前,为实际创建pyspark.sql.DataFrame生成的代码如下所示:

df_data_1 = spark.read
  .format('org.apache.spark.sql.execution.datasources.csv.CSVFileFormat')
  .option('header', 'true')
  .load('swift://container_name.' + name + '/test.csv')
df_data_1.take(5)

您必须添加以下选项,然后推断出架构:

.option(inferschema='true')

相关内容

  • 没有找到相关文章

最新更新