df=sqlContext.read.parquet("/user/data.parquet")
读取镶木地板文件
df.count()<br/>
计数
8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>
train.count()
计数列车组
6594476
test.count()
计数测试集
117790
显然,659w+11w不等于824w,javaRDD也有这个问题。
看来我的800w有重复的值...它需要在样品前"区分">