删除pysaprk sql中的第一行



我有一个PySpark SQL脚本,它应该在执行SQL选择以删除标题行后删除第一行。

scSpark = SparkSession.builder.config("spark.driver.extraClassPath", "./mysql-connector-java-8.0.29.jar").getOrCreate()
sqlContext = SQLContext(scSpark)
jdbc_url = "jdbc:mysql://{0}:{1}/{2}".format(hostname, jdbcPort, dbname)
connectionProperties = {
"user": username,
"password": password
}
sdfData = scSpark.read.csv(data_file, header=True, sep=",", encoding='UTF-8').cache()
sdfData.registerTempTable("books")
output = scSpark.sql('SELECT Categories AS type, `Course Material Title` AS title FROM books')

我怎么能把第一行在我的代码的最后一行删除标题在选定的输出?

我不希望头进入MySQL数据库数据表,但我确实需要在最后一行spark SQL的头,所以我不能在读取csv部分设置header=false

保存spark df时,设置header=False参数。它会自动忽略标题

最新更新