我有一个客户数据集,我想定义一个频繁的标准,来描绘一个理想的客户。数据集有以下字段:
- fullname
- 工作(标题)
- 公司网站域名
- 公司描述(字符串数据)
- 公司成立年份
- 公司员工(人数) 城市公司
- 公司国家
- linkedin群组跟随 创建
除公司雇员、公司成立、创建和更新外,没有数字数据。该数据集还有其他有用的数据,如年龄(间隔)和性别,但它有太多缺失值,因此为了分析目的,我删除了它们。
我在R中运行代码:
data1 <- read.csv("final_account_list.csv")
library(arules)
str(data1)
data1$Company.Founded <- factor(data1$Company.Founded)
rules1 <- apriori(data1)
rules1
inspect(rules1)
options(digits=2)
inspect(rules1[1:5])
我得到了一个59条规则的列表,但它们没有多大意义。例如,
{公司。Employees = 500} => {Company。上扬1.176,信心= 0.083,支撑= 0.109
事实上,大多数客户有500名员工,并没有带来太多的价值。如何使我的分析更有意义?
例如,如何查找标题、地理位置(城市、州)和linkedin组的关联?
最重要的部分是定义,"有意义的规则"对你来说在右侧(rhs
)和/或左侧(rhs
)方面意味着什么。
然后,正如apriori
包的文档中所描述的那样,您可以调查您的规则。
对于您的示例
如何找到…的关联?linkedin组
可以用
# find rules with "linkedin groups followed" in right-hand-side
rulesLinkedIn = subset(rules1, subset = rhs %in% "linkedin groups followed"))
# inspect rules with highest confidence
inspect(head(sort(rulesLinkedIn, by="confidence")), n=3)