csv计数中的Spark数据帧,返回错误的结果



我在Spark 2.2中打开了几个"csv"文件,但当我进行"计数"时,它会返回10000000条记录,而实际上是6000000条记录,当我在python或Alteryx中与Pandas进行检查时,它给出了正确的数字。

scala> val df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema","true").option("encoding", "UTF-8").load("/detalle/*.csv")
df: org.apache.spark.sql.DataFrame = [KEY: string, UNIQ: string ... 101 more fields]
scala> df.count
res13: Long = 10093371

许多公交车和乘客的绝望,请在帖子中回复:

正在读取带有包含嵌入逗号的带引号字段的csv文件

最后一条线路形式:

val df = spark.read.format("com.databricks.spark.csv").option("wholeFile", true).option("multiline",true).option("header", true).option("inferSchema", "true").option("delimiter", ",").option("encoding", "ISO-8859-1").option("charset", "ISO-8859-1").option("quote", """).option("escape", """).load("*.csv")

谢谢!

相关内容

  • 没有找到相关文章

最新更新