为什么Spark中的采样和减法会给出这样的结果


df=sqlContext.read.parquet("/user/data.parquet")

读取镶木地板文件

df.count()<br/>

计数

8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>
train.count()

计数列车组

6594476
test.count()

计数测试集

117790

显然,659w+11w不等于824w,javaRDD也有这个问题。

看来我的800w有重复的值...它需要在样品前"区分">

相关内容

  • 没有找到相关文章

最新更新