小贝子编程

为什么Spark中的采样和减法会给出这样的结果

本文关键字：结果 Spark 采样 python apache-spark pyspark apache-spark-sql apache-spark-mllib
更新时间 : 2023-08-31
英文 : why the sample and subtract method in spark give results like this

df=sqlContext.read.parquet("/user/data.parquet")

读取镶木地板文件

df.count()<br/>

计数

8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>
train.count()

计数列车组

6594476
test.count()

计数测试集

显然，659w+11w不等于824w，javaRDD也有这个问题。

看来我的800w有重复的值...它需要在样品前"区分">

最新更新

r语言 - 在自身RStudio上交叉连接
在Nunit中对某些测试进行参数化设置，但对其他测试不进行参数化设置
在模板<类中，It>函数，其中它是一个迭代器，我可以让它：：value_type同时适用于vector：：iterators和array：：iterators吗？
查询现有列时出现SequelizeDatabaseError
如何在React组件中插入使用js创建的iframe
使用 HTML 和 Javascript 检测第二个下拉列表(级联)中的更改
如何配置我的django项目:模板不存在错误?
尝试将JSON解析为字典的问题
合并HTML表中的单元格
c# MVC返回List时如何处理空值
如何从标准输入中读取一行，并将其余部分传递给子进程?
类型错误：只能将 str (不是 "float" ) 连接到 str
r语言 - 如何在长格式数据集上使用迭代方法快速拟合混合模型
结合使用 Atlantis 和 ArgoCD 的用例是什么？
AngularJS 1.5每个选项卡/窗口的唯一用户授权
Julia: Julia 1.9.0:ERROR: LoadError: able to open libLLVM!在W
Azure B2C vs Azure外部身份
SAS -使用过程报告的汇总功能到总百分比
本地主机中的AnyLogic浏览器在刷新时关闭.刷新时如何不关闭它?
可能导致Cassandra集群节点间磁盘空间利用率不均匀的原因
为什么我需要两次输入才能让代码运行
获取双引号内的信息
如果用户输入的是字母而不是数字，如何在循环中添加错误语句?
keyboard.is_pressed()打破循环
python fastapi给出错误的响应
如何使一个选择元素可访问，如果它没有标签?
在Scala中创建一个没有参数的匿名函数
如何在Vue.js中传递URL给iFrame
如何从Oracle视图中提取FROM子句的内容
如何在Java中正确使用Spark SQL缓存?

为什么Spark中的采样和减法会给出这样的结果

相关内容

最新更新

热门标签：