使用has函数对大数据集进行采样

到目前为止，我一直使用以下方法对大文件进行采样:

with open(myfile) as f1:
    with open(output,'w') as f2:
        for i,line in enumerate(f1):
            if i%my_rate==0:
                f2.write(line)

这段代码遍历输入文件，取每n (=my_rate)个样本，并将它们写入输出文件。

我如何改进这种方法?我正在考虑使用一个哈希函数，该函数将根据键(在我的情况下是UserID)对20%的输入数据进行采样。

我正在使用Spark，所以所有东西都可以放入内存。当我环顾四周时，我发现了MurmurHash3，但我对Python哈希函数了解不多，我刚开始使用Spark。

如果您想随机抽样，您可以使用random包绘制一个随机数，并且仅在绘制低于某个值时使用线。

import random
cutoff = .2 # (random draws between 0 and 1, so .2 would yield a 20% sample.)
with open(myfile) as f1:
    with open(output,'w') as f2:
        for i,line in enumerate(f1):
            if random.random() < cutoff:
                f2.write(line)

相关内容

最新更新

热门标签：