我正在使用scikit-learn,并希望使用RBF内核运行SVR。我的数据集非常大,因此通过阅读其他帖子,建议我使用 SGD 回归和 RBF 近似。有趣的是,与仅使用 SGD 本身相比,我将 SGD 与 RBF 一起使用的结果更差。我想这是由于错误的参数值。我尝试循环遍历 RBF 采样器的伽马和n_components,并为 SGD regessor 尝试了许多参数,但无济于事。我还输出训练和交叉验证误差,两者大致相同,所以我认为这是一个偏差问题。
为什么您认为 RBF 特征空间必须比线性空间具有更高的精度?虽然经常是这样,但没有理由相信这一定是真的。有一整类真实世界的数据,RBF 内核表现不佳
除此之外,还有许多其他问题可以提出/探索。如果没有其他人使用/探索您的数据,这些问题通常不会令人难缠。如:
- 原始要素值是否正确归一化?
- 使用的近似方法是否适合数据量/数据类型 问题是病态
- 还是几乎病态?如果是这样 - 我们对近似的近似是我们错误的原因吗?
- 原始功能是否足够有意义,可以使用RBF?
- 测试的参数值是否适合我的数据及其缩放比例?
- 当前获得的错误率是多少?对疼痛可行错误率的合理期望是多少?