小贝子编程

csv计数中的Spark数据帧，返回错误的结果

本文关键字：返回错误结果数据帧 Spark csv csv apache-spark count apache-spark-sql bigdata
更新时间 : 2023-09-18
英文 : Spark dataframe from csv count, return wrong result

我在Spark 2.2中打开了几个"csv"文件，但当我进行"计数"时，它会返回10000000条记录，而实际上是6000000条记录，当我在python或Alteryx中与Pandas进行检查时，它给出了正确的数字。

scala> val df=spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema","true").option("encoding", "UTF-8").load("/detalle/*.csv")
df: org.apache.spark.sql.DataFrame = [KEY: string, UNIQ: string ... 101 more fields]
scala> df.count
res13: Long = 10093371

许多公交车和乘客的绝望，请在帖子中回复：

正在读取带有包含嵌入逗号的带引号字段的csv文件

最后一条线路形式：

val df = spark.read.format("com.databricks.spark.csv").option("wholeFile", true).option("multiline",true).option("header", true).option("inferSchema", "true").option("delimiter", ",").option("encoding", "ISO-8859-1").option("charset", "ISO-8859-1").option("quote", """).option("escape", """).load("*.csv")

谢谢！

csv计数中的Spark数据帧，返回错误的结果

相关内容

最新更新

热门标签：