给定一组项集C
和一个支持阈值m
,是否有一种有效的方法来生成(或)最大频繁模式?
通过频繁模式,我指的是项集p
,使得C
中的项集s
的数量,使得p
是s
的子集,至少是m
。我所说的最大模式是指p
中的项目数量应该尽可能多。
具体来说,我想避免生成所有"最大"或"闭合"模式的(组合大的)集合——任何一个最大大小的模式都可以。
我发现了一系列基于FP-Tree数据结构的有趣工作。该方法在2008年的一篇漂亮的论文中进行了描述,并在2011年通过添加新的修剪技术进行了扩展。
构建一个FPTree,在构建树的同时,记录最长的树路径,使support>=minsup。
这将为您提供最大的项目集。
如果minsup=0,那么最大的项集就是最大的事务。