加载带有spark提交的csv文件时出错



我是py spark的新手,我一直在Jupiter笔记本上运行作业,该笔记本运行平稳,但在运行spark提交加载CSV文件时遇到问题。

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
if __name__ == '__main__':
conf = SparkConf().setAppName("app")
sc = SparkContext(conf=conf)

加载csv文件

netflix_df = spark.read.format("csv") 
.option("header", "true") 
.option("inferSchema","true") 
.load("netflix_titles.csv")

上面的代码在Jupiter笔记本上运行得很好,但在尝试使用spark-submit运行保存在python文件中的相同代码时不起作用我得到以下错误

NameError: name 'spark' is not defined

当我用sc.read.format("csv")替换spark.read.format("csv")时,我得到以下错误

AttributeError: 'SparkContext' object has no attribute 'read'

您需要创建一个火花会话。

import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder()
.master("local[1]") # replace with suitable parameter
.appName("demo")
.getOrCreate()  
#now you use spark.read

最新更新