小贝子编程

如何从 Pyspark 中的十亿行数据集中随机行

本文关键字：十亿数据数据集随机集中 Pyspark pyspark
更新时间 : 2023-09-14
英文 : How to random rows from Billion rows dataset in Pyspark

我有一个 2000 亿行的数据集，我想随机提取 100 万行以开始处理数据模型。

我正在使用 pyspark。

处理十亿行的最佳方法应该是什么？

可以在数据帧上使用示例方法。

例如：

# Create a 0.0005% sample without replacement, with a random seed of 42
# (1 million/200 billion) = 0.000005
>>> df.sample(withReplacement=False, fraction=0.000005, seed=42).count()

最新更新

投影矩阵与全息透镜1上的PhotoCapture不可用
不能为所有连接的客户端更改标签的内容
p2p chat on python
nodejs中buffer的用例
从Jenkins过渡到Github Actions
是否可以在不访问其聊天的情况下下载团队会议记录?
在另一个asyncio.gather()中使用嵌套的asyncio.gather()
Spring Circular Dependency with HttpSecurityConfiguration
awk打印空如果列是空值
c -在飞行中更改预选器并立即使用它
DCGAN的Pytorch权初始化问题
为什么我的useEffect运行，即使没有在依赖关系的变化?
如何在next .js中访问导入中的环境变量
如何配置alexa激活我的arduino使用我创建的web界面?
来自链接的Facebook opengraph图片
为什么更改后HAproxy不维护cookie会话持久性?
r语言 - Na填充在特定值之后
如何在django模板中动态生成的for循环中激活bootstrap navlink
检查数据库列是否包含、以 EF 查询的 where 子句中的任何列表项开头或结尾不起作用
如果表单内的任何按钮被点击，Angular表单字段就会被验证
c语言 - 我无法更新文本文件中的新数据
Podman push not verbose and VM out of sync
不知道我使用的是Firebase JS SDK还是React-Native-Firebase
如何计数列表出现与Data.Map?
JavaScript Promise .then(onFulfilled, onRejected) vs. .then(
Kubernetes emptyDir and symlinks
如何在micronaut声明性客户机中接收空响应?
Cloudflare和本地网站显示mailchimp不同?
如何在android中存储硬编码加密主密钥?
如何提示用户在手机上注册生物识别

如何从 Pyspark 中的十亿行数据集中随机行

相关内容

最新更新

热门标签：