r-4.现在为每个度量拟合一个线性模型,并使用confint函数来比较估计值.(击球)



以下是我迄今为止所做的工作,我很难计算出回归线。

  1. 在开始之前,我们想要生成两个表。一个用于2002年,另一个用于1999-2001赛季的平均值。我们想定义每个板的外观统计数据。以下是我们如何创建2017年表格。只保留出场次数超过100次的球员。现在计算一个类似的表格,但费率是在1999-2001年计算的
library(Lahman)
data("Batting")
avg <- Batting %>% filter(yearID %in% 1999:2001) %>%
mutate(pa = AB + BB, 
avg_singles = (H - X2B - X3B - HR) / pa, avg_bb = BB / pa) %>%
filter(pa >= 100) %>%
select(playerID, avg_singles, avg_bb)
dat <- Batting %>% filter(yearID == 2002) %>%
mutate(pa = AB + BB, 
singles = (H - X2B - X3B - HR) / pa, bb = BB / pa) %>%
filter(pa >= 100) %>%
select(playerID, singles, bb)
  1. 计算2002年与前几个赛季单打和BB的相关性
dat <- inner_join(dat, avg, by = "playerID")
rdat <- dat %>% 
summarise(singles_r = cor(singles,avg_singles ), bb_r = cor(bb, avg_bb ))
rdat
  1. 请注意,BB的相关性更高。为了快速了解与此相关性估计相关的不确定性,我们将拟合线性模型并计算斜率系数的置信区间。然而,首先制作散点图,以确认拟合线性模型是合适的
library(ggplot2)
dat %>% 
ggplot(aes(singles,avg_singles))+
geom_point(alpha = 0.5)
dat %>% 
ggplot(aes(bb,avg_bb))+
geom_point(alpha = 0.5)
  1. 现在为每个度量拟合一个线性模型,并使用confint函数来比较估计值

我会使用lm函数来解决这个问题
示例:

lm(singles ~ avg_singles , data = dat)

对于CCD_ 2也是如此。

2002年单身率与1999-2001年平均单身率之间的相关性是什么

以下代码可用于确定相关性:

dat <- inner_join(bat_02, bat_99_01)
cor(dat$singles, dat$mean_singles)
# Correct answer:
[1] 0.5509222

2002年BB发病率与1999-2001年平均BB发病率之间的相关性是什么

以下代码可用于确定相关性:

cor(dat$bb, dat$mean_bb)
# Correct answer:
[1] 0.7174787

最新更新