所以我试图解决一个问题,我有一个有3列的数据集;客户ID""快";,以及";精确的";其中";CustomerID";只是客户端的号码;"快";以及";精确";,相反,请参考客户如何评估某个产品。"快";意味着以较低的精度快速评估产品;精确的";恰恰相反;我想了解是否可以使用";"快";方法可靠地同时保持类似于";精确的";一一个目标是定义和判断列";"快";并且列";精确的";但唯一想到的是一个线性回归。考虑到数据集由少于200个条目组成,还有其他选择吗?我尝试使用分位数回归模型,但我真的不明白它是如何工作的,因为它返回一个包含所有可能值的矩阵,而不是每个条目只返回一个值。
两列的摘录如下:
Fast|Precise
10| 10.3
25| 15.0
50| 34.2
75| 49.4
100| 71.3
125| 81.3
150| 94.0
175| 104.3
...| ...
概括一下,我需要做的是弄清楚这两个变量之间的关系(考虑到"快速"有步骤,而"精确"没有(。我认为仅仅使用线性回归有点限制,因为截距的p值有点高。
你知道吗?不幸的是,我似乎没有找到合理的解决方案,这是我最后的希望。
线性回归似乎是一个合适的解决方案,我真的不明白为什么具有高p值的截距被视为一个问题?
如果你认为可能存在非线性关系,你可以尝试在回归模型中包含一个二次项(即多项式回归(。或者,你可以尝试黄土回归或广义加性模型来平滑这种关系。
您可以尝试所有这些方法,看看哪种方法最适合。