我有一个 2000 亿行的数据集,我想随机提取 100 万行以开始处理数据模型。
我正在使用 pyspark。
处理十亿行的最佳方法应该是什么?
可以在数据帧上使用示例方法。
例如:
# Create a 0.0005% sample without replacement, with a random seed of 42
# (1 million/200 billion) = 0.000005
>>> df.sample(withReplacement=False, fraction=0.000005, seed=42).count()