如何从 Pyspark 中的十亿行数据集中随机行



我有一个 2000 亿行的数据集,我想随机提取 100 万行以开始处理数据模型。

我正在使用 pyspark。

处理十亿行的最佳方法应该是什么?

可以在数据帧上使用示例方法。

例如:

# Create a 0.0005% sample without replacement, with a random seed of 42
# (1 million/200 billion) = 0.000005
>>> df.sample(withReplacement=False, fraction=0.000005, seed=42).count()

最新更新