随机拆分是否返回对原始 rdd 的副本或引用?



假设我有类似下面的代码

for idx in xrange(0, 10):
    train_test_split = training.randomSplit(weights=[0.75, 0.25])
    train_cv = train_test_split[0]
    test_cv = train_test_split[1]
    # scale train_cv and test_cv

通过缩放train_cvtest_cv,原始数据会受到影响吗?

RDD是不可变的。

因此,实际上不可能"更改"RDD仅转换它们。所以,不,原始数据不会受到影响。

最新更新