我正在尝试在具有经常一起销售的产品项集的数据集中挖掘频繁的项集。
示例项集:
A,B,C,D,E
A,B
B,E
A,B
B,C
B,C,E
A,C,F,G
D,H,
I,J,K,L
A,J,K
L,C,F
C,B
我使用 eclat 函数的先验来获取项集
rules <- apriori(tr, parameter = list(supp=0.01, conf=0.5,target="frequent itemsets")
有什么方法可以将这些项集限制为仅基于具有特定长度(订单(的交易生成,例如仅针对具有 2 个项目或 3 个项目等的交易..?
因此,例如,当我想挖掘长度为 2 的常见项集的项集时,我应该只看到
count
A,B 2 and not 3 because {A,B,C,D,E} doesn't qualify
B,E 1
B,C 2
D,H 1
如果我理解正确,那么您想创建事务并对其进行子集化,以便仅保留仅包含正好 2 个项目的事务。这是你这样做的方式:
library('arules')
trans_list <- list(
c('A', 'B', 'C', 'D', 'E'),
c('A', 'B'),
c('B', 'E'),
c('A', 'B'),
c('B', 'C'),
c('B', 'C', 'E'),
c('A', 'C', 'F', 'G'),
c('D', 'H'),
c('I', 'J', 'K', 'L'),
c('A', 'J', 'K'),
c('L', 'C', 'F'),
c('C', 'B')
)
从列表创建交易记录
trans <- as(trans_list, "transactions")
trans
#> transactions in sparse format with
#> 12 transactions (rows) and
#> 12 items (columns)
inspect(head(trans))
#> items
#> [1] {A,B,C,D,E}
#> [2] {A,B}
#> [3] {B,E}
#> [4] {A,B}
#> [5] {B,C}
#> [6] {B,C,E}
仅选择大小为 2 个项目的交易记录
trans_2 <- subset(trans, size(trans) == 2)
trans_2
#> transactions in sparse format with
#> 6 transactions (rows) and
#> 12 items (columns)
inspect(head(trans_2))
#> items
#> [1] {A,B}
#> [2] {B,E}
#> [3] {A,B}
#> [4] {B,C}
#> [5] {D,H}
#> [6] {B,C}
挖掘常用项集
itemsets <- apriori(trans_2, parameter = list(supp=0.01, conf=0.5,target="frequent itemsets"))
#> Apriori
#>
#> Parameter specification:
#> confidence minval smax arem aval originalSupport maxtime support minlen
#> NA 0.1 1 none FALSE TRUE 5 0.01 1
#> maxlen target ext
#> 10 frequent itemsets FALSE
#>
#> Algorithmic control:
#> filter tree heap memopt load sort verbose
#> 0.1 TRUE TRUE FALSE TRUE 2 TRUE
#>
#> Absolute minimum support count: 0
#>
#> set item appearances ...[0 item(s)] done [0.00s].
#> set transactions ...[6 item(s), 6 transaction(s)] done [0.00s].
#> sorting and recoding items ... [6 item(s)] done [0.00s].
#> creating transaction tree ... done [0.00s].
#> checking subsets of size 1 2 done [0.00s].
#> writing ... [10 set(s)] done [0.00s].
#> creating S4 object ... done [0.00s].
inspect(itemsets)
#> items support count
#> [1] {E} 0.1666667 1
#> [2] {D} 0.1666667 1
#> [3] {H} 0.1666667 1
#> [4] {A} 0.3333333 2
#> [5] {C} 0.3333333 2
#> [6] {B} 0.8333333 5
#> [7] {B,E} 0.1666667 1
#> [8] {D,H} 0.1666667 1
#> [9] {A,B} 0.3333333 2
#> [10] {B,C} 0.3333333 2