r语言 - 如何优化关联分析,使规则有意义



我有一个客户数据集,我想定义一个频繁的标准,来描绘一个理想的客户。数据集有以下字段:

  • fullname
  • 工作(标题)
  • 公司网站域名
  • 公司描述(字符串数据)
  • 公司成立年份
  • 公司员工(人数)
  • 城市公司
  • 公司国家
  • linkedin群组跟随
  • 创建

除公司雇员、公司成立、创建和更新外,没有数字数据。该数据集还有其他有用的数据,如年龄(间隔)和性别,但它有太多缺失值,因此为了分析目的,我删除了它们。

我在R中运行代码:

data1 <- read.csv("final_account_list.csv")
library(arules)
str(data1)
data1$Company.Founded <- factor(data1$Company.Founded)
rules1 <- apriori(data1)
rules1
inspect(rules1)
options(digits=2)
inspect(rules1[1:5])

我得到了一个59条规则的列表,但它们没有多大意义。例如,
{公司。Employees = 500} => {Company。上扬1.176,信心= 0.083,支撑= 0.109

事实上,大多数客户有500名员工,并没有带来太多的价值。如何使我的分析更有意义?
例如,如何查找标题、地理位置(城市、州)和linkedin组的关联?

最重要的部分是定义,"有意义的规则"对你来说在右侧(rhs)和/或左侧(rhs)方面意味着什么。

然后,正如apriori包的文档中所描述的那样,您可以调查您的规则。

对于您的示例

如何找到…的关联?linkedin组

可以用

# find rules with "linkedin groups followed" in right-hand-side
rulesLinkedIn = subset(rules1, subset = rhs %in% "linkedin groups followed"))
# inspect rules with highest confidence 
inspect(head(sort(rulesLinkedIn, by="confidence")), n=3)

相关内容

  • 没有找到相关文章

最新更新