数据挖掘-查找最大的频繁项目集



给定一组项集C和一个支持阈值m,是否有一种有效的方法来生成(或)最大频繁模式?

通过频繁模式,我指的是项集p,使得C中的项集s的数量,使得ps的子集,至少是m。我所说的最大模式是指p中的项目数量应该尽可能多。

具体来说,我想避免生成所有"最大"或"闭合"模式的(组合大的)集合——任何一个最大大小的模式都可以。

我发现了一系列基于FP-Tree数据结构的有趣工作。该方法在2008年的一篇漂亮的论文中进行了描述,并在2011年通过添加新的修剪技术进行了扩展。

构建一个FPTree,在构建树的同时,记录最长的树路径,使support>=minsup。

这将为您提供最大的项目集。

如果minsup=0,那么最大的项集就是最大的事务。

最新更新