在R中进行串行交叉表后,创建一个新的数据图来对百分比进行分段线性回归



我正在使用R。我需要确定随着时间的推移更高的主动试验开始百分比(StartDateMonthsYrs(的预测因素。我将以Percent.Active为因变量进行线性回归。附上了我的原始数据帧,并附上了我获得的一段时间内的主动试验开始百分比(名为Percent.Active(。

因此,我需要评估联邦赞助的试验、行业赞助的试验或其他赞助的试验是否与随着时间的推移更高的活跃试验开始百分比有关。我还有许多其他变量需要评估,但这是我的数据样本。

我想在每个月为每个变量做很多交叉表(例如Fedral和Active,然后Industry和Active…等((可以在lapply的帮助下,然后在第二张表中累积获得的百分比数据,然后在此基础上运行分析。

我的线性回归代码如下:

q.lm0 <- lm(Percent.Active ~ Time.point+ xyz, data.percentage);summary(q.lm0)

我有点困惑。你写的是"关联"。如果你真的想寻找关联,那么是的,交叉表可能是可能的,而且足够了,因为关联与因果关系不同(如果背后有理论的话,因果关系是从相关性中进一步推导出来的(。若你们寻找相关性,以及随着时间推移的洞察力,用lm package进行回归是没有用的。

如果你想寻找再细化类型的分析,R中有一些包,比如plm package,可以处理面板数据,因为你显然有面板数据(时间点、感兴趣的试验标签以及这些标签的重复时间点(。有关该软件包的信息,请参阅此帖子:https://stackoverflow.com/questions/2804001/panel-data-with-binary-dependent-variable-in-r

我写这篇文章是因为你的Percent.Active变量只是0/1的二进制结果,我不确定这是否是故意的。然而,即使你的结果不是二进制的,plm包可能会有所帮助,但你会在那篇文章中找到其他提到的包。

最新更新