r语言 - 我正在尝试为垃圾邮件数据集创建一个逻辑回归模型,但有很多变量(超过 2500)(新手)



如上所述,我正在尝试创建一个基于单词出现率检测垃圾邮件的模型。我的数据集中的信息如下:

  • 大约2800个变量代表每个单词及其出现频率
  • 二进制垃圾邮件变量1代表垃圾邮件0代表合法

我一直在使用在线资源,但只能找到小得多的数据集的逻辑回归和神经网络教程,相比之下似乎简单得多。到目前为止,我已经汇总了要分析的垃圾邮件和非垃圾邮件的总单词,但是我在创建模型本身时遇到了麻烦

有没有人对如何用更大的数据集管理这个有任何来源或见解?

为这个简单的问题道歉(如果是这样的话),谢谢你的建议。

经典方法使用广义线性模型(GLM),并对变量的数量进行惩罚。在这种情况下,GLM将是逻辑回归模型。罚球的经典方法是套索、脊回归和弹性网技术。如果变量数量(p)与样本数量(N)的比率过高,则参数值的收缩可能会导致没有选择任何参数作为预测参数。一些参数可以控制收缩。总的来说,这是一个研究得很好的话题。你的问题没有问到你将使用的编程语言,但你可能会在Python、R、Julia和其他广泛使用的数据科学编程语言中找到有用的包。在CV社区里也会有很多信息。

我将开始单独分析每个变量。我会为每一个实现逻辑回归,并且只保留那些p值真正显著的。

在第一步之后,您可以运行一个更复杂的逻辑回归模型,其中您在第一步中包含剩余的变量。

相关内容

  • 没有找到相关文章

最新更新