我有一个带有以下内容的CSV文件
id,pos_id,supplier_id
5127973,2000,"test
5704355,77,/10122
我想将其加载到数据帧中,并且数据框架将通过JDBC
加载到poststresql中在这里我做了什么:
val conf = new SparkConf().setMaster("local[2]").setAppName("my app")
val sc = new SparkContext(conf)
val sparkSession = SparkSession.builder.config(conf = conf).appName("spark session example").getOrCreate()
val df= sparkSession.sqlContext.read.format("com.databricks.spark.csv")
.option("header", "true").option("escape", """).load("C:\Users\MHT\Desktop\data.csv")
df.show()
+-------+------+--------------------+
| id|pos_id| supplier_id|
+-------+------+--------------------+
|5127973| 2000|test
5704355,77,/...|
+-------+------+--------------------+
我该怎么做才能在数据框架中获取相同的数据,然后在poptresql中获得相同的数据。
将CSV数据写入HDFS,使用SQOOP我们可以通过在$ SQOOP_HOME/LIB DIRECTORY中提供所需的JDBC JAR来将数据导出到目标数据库。