R语言 回归分析



我目前正在做一个项目,我需要一些帮助。我想使用统计模型预测航班延误的长度。该数据集不包含航班延误的长度,但它可以从实际和预定起飞时间计算出来,我知道实际起飞时间 - 预定起飞时间会给我航班延误,这是因变量。我正在努力以有用的形式获取解释(自变量)以进行回归分析 - 主要问题是当您从 csv 文件中读取表格时前两列的时间格式。我已经将数据文件附加到问题中,因为我不太确定如何附加我的文件,我是这个编码的新手呵呵。任何帮助将不胜感激。xx

https://drive.google.com/file/d/11BXmJCB5UGEIRmVkM-yxPb_dHeD2CgXa/view?usp=sharing

编辑:

首先感谢您的所有帮助

好的,我将尝试就这个主题提出更精确的问题:

因此,在使用以下方法导入文件后:

1)

Delays <- read.table("FlightDelaysSM.csv",header =T,sep=",") 

2)我遇到的主要问题是将列计划时间和 deptime 转换为我可以进行算术计算的格式

3)我尝试了以下方法

Delays[,1] - Delays[,2] 

出现明显问题的地方,例如 800(上午 8 点)- 756(上午 7.56 点)= 44 而不是 4 分钟

4)使用@kerry杰克逊的帮助(谢谢,你太棒了x)我试过了

DepartureTime <- strptime(formatC(Delays$deptime, width = 4, format = "d", flag = "0", %H%M)
ScheduleTime <- strptime(formatC(Delays$schedtime, width = 4, format = "d", flag = "0", %H%M)
DelayTime = DepartureTime - ScheduleTime

给出的值也以秒为单位,我希望差异以分钟为单位,我将如何做到这一点?

5)然后我做了以下事情:

DelayData <- data.frame(ScheduleTime, DepartureTime, DelayTime, Delays[, 4:7])

制作延迟数据后我获得了什么

正如您在图像中看到的那样,我的列中有名为 DelayTime 的秒单位,我不想要 4 中所述),日期在"时间表时间"和"出发时间"列中,我可以得到一些关于如何纠正此问题的建议吗?

创建一个名为flight_delay的新列:

install.packages('tidyverse')
library(tidyverse)
your_data <- your_data %>%
mutate(flight_delay=deptime-schedtime)

现在,创建一个线性回归模型,通过其他变量预测flight_delay

mod <- lm(flight_delay ~ ., data=your_data)

要优化模型,请使用step函数:

mod <- step(mod)

分析结果:

summary(mod)

相关内容

  • 没有找到相关文章

最新更新