我有一个包含3.3M行和8k个唯一产品的数据集。我想应用apriori算法来查找产品之间的关联规则和连接。嗯,我以前在一个小得多的数据库上做过,数据库有5万行,可能有200种独特的产品。。有人知道我如何使用更大规模的数据有效地做到这一点?我如何才能让它对我有效?也许有一些技巧可以减少数据的规模,但仍然能得到有效的结果。任何帮助都将是惊人的!如果你有这个算法的经验,请联系我。
诀窍是:不要使用Apriori。
使用LCM或自上而下版本的FP Growth。
你可以在这里找到我的实现:
命令行程序:https://borgelt.net/fim.html(带选项-o的eclat给出LCM(
Python:https://borgelt.net/pyfim.html
R:https://borgelt.net/fim4r.html