我在Spark 2.2中打开了几个"csv"文件,但当我进行"计数"时,它会返回10000000条记录,而实际上是6000000条记录,当我在python或Alteryx中与Pandas进行检查时,它给出了正确的数字。
scala> val df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema","true").option("encoding", "UTF-8").load("/detalle/*.csv")
df: org.apache.spark.sql.DataFrame = [KEY: string, UNIQ: string ... 101 more fields]
scala> df.count
res13: Long = 10093371
许多公交车和乘客的绝望,请在帖子中回复:
正在读取带有包含嵌入逗号的带引号字段的csv文件
最后一条线路形式:
val df = spark.read.format("com.databricks.spark.csv").option("wholeFile", true).option("multiline",true).option("header", true).option("inferSchema", "true").option("delimiter", ",").option("encoding", "ISO-8859-1").option("charset", "ISO-8859-1").option("quote", """).option("escape", """).load("*.csv")
谢谢!