我试图比较多类逻辑回归(OvR(和随机森林之间的性能,但我的数据集不平衡,我的标签有5个可能的值。不平衡的数据会影响性能吗?
是(很可能(
你的模型偏向于多数阶级,对少数阶级了解甚少。如果你有一个不平衡的数据集,首先尝试对真实分布进行训练。如果模型运行良好并具有普遍性,那么您就完成了!如果没有,请尝试以下向下采样和向上加权技术。
我试图比较多类逻辑回归(OvR(和随机森林之间的性能,但我的数据集不平衡,我的标签有5个可能的值。不平衡的数据会影响性能吗?
是(很可能(
你的模型偏向于多数阶级,对少数阶级了解甚少。如果你有一个不平衡的数据集,首先尝试对真实分布进行训练。如果模型运行良好并具有普遍性,那么您就完成了!如果没有,请尝试以下向下采样和向上加权技术。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium