删除pysaprk sql中的第一行

我有一个PySpark SQL脚本，它应该在执行SQL选择以删除标题行后删除第一行。

scSpark = SparkSession.builder.config("spark.driver.extraClassPath", "./mysql-connector-java-8.0.29.jar").getOrCreate()
sqlContext = SQLContext(scSpark)
jdbc_url = "jdbc:mysql://{0}:{1}/{2}".format(hostname, jdbcPort, dbname)
connectionProperties = {
"user": username,
"password": password
}
sdfData = scSpark.read.csv(data_file, header=True, sep=",", encoding='UTF-8').cache()
sdfData.registerTempTable("books")
output = scSpark.sql('SELECT Categories AS type, `Course Material Title` AS title FROM books')

我怎么能把第一行在我的代码的最后一行删除标题在选定的输出?

我不希望头进入MySQL数据库数据表，但我确实需要在最后一行spark SQL的头，所以我不能在读取csv部分设置header=false

保存spark df时，设置header=False参数。它会自动忽略标题

相关内容

最新更新

热门标签：