在样条回归中,基本函数的个数是否可能大于观测值的个数?



我想用b样条基函数运行回归样条。数据的结构是这样的观察值的数量少于基函数的数量我得到了一个很好的结果。但我不确定这种情况是否正确。
我必须有更多的行比列像线性回归?
谢谢。

当观测数N较小时,很容易拟合出平方误差较小的基函数模型。如果基函数比观测值多,那么残差可能为0(与数据完美拟合)。但这并不可信,因为它可能无法代表更多的数据点。是的,你想要更多的观察值而不是列。在数学上,由于共线性,你不能正确地估计超过N列。根据经验,每增加一个变量/样条通常需要15 - 20个观测值。

但是,情况并非总是如此,例如在遗传学中,当我们有数十万个潜在变量和小样本量时。在这种情况下,我们转向帮助小样本大小的工具,如交叉验证和bootstrap。

引导(即替换样本)您的数据点并多次修改样条(100次可能就可以了)。然后对样条曲线求平均值并将其作为最终的样条函数。或者你可以做交叉验证,在一个较小的数据集(70%)上训练,然后在剩余的数据集上测试。

在函数数据分析框架中,R中有构造和拟合样条基(如cubic, B等)的包。这些包包括refundfdafda.usc

例如,

B <- smooth.construct.cc.smooth.spec(object = list(term = "day.t", bs.dim = 12, fixed = FALSE, dim = 1, p.order = NA, by = NA),data = list(day.t = 200:320), knots = list())

构造维度12的B样条基(随时间推移,day.t),但是您也可以使用这些包来帮助选择基本维度。

相关内容

  • 没有找到相关文章

最新更新