将先验知识纳入机器学习模型



说我有一个具有收入水平,性别,父母教育水平,学校等功能的学生的数据集,而目标变量是说,通过或失败了国家考试。我们可以训练机器学习模型,以预测这些值是否可能通过还是失败(例如,在Sklearn中,使用preadive_prob,我们可以说通过的概率)

现在说我有一组不同的信息,这与以前的数据集无关,其中包括去年和几年前通过该国家考试的学校的学校和百分比。说,校园:10%,小学生:15%等

我如何利用这些额外的知识来改善我的模型。可以肯定的是,这些数据很有价值。(某些学校的学生由于教育设施,合格的员工等而有更高的机会通过考试。

我是否有一些将这些信息作为新功能添加到数据集的新功能?如果是这样,建议的方式是什么。还是在模型预测之后我使用这些信息,并以某种方式将它们结合起来以获得最终的概率?显然,由于第二个数据集的概率在20%以下,因此平均值或加权平均值无效,然后将总概率非常低。数据科学家通常如何结合这种先验知识?谢谢

您可以尝试添加此数据的不同方法,并查看您的模型是否能够在此集合上学习。您更有可能立即看到,这些附加数据将使模型感到困惑。主要是因为您已经为学校的每个学生提供了更精确的数据,并且该模型具有更多使用此信息的自由。但是,人工神经网络培训都是关于连续试验和错误的,因此您绝对应该尝试使用所有可能的数据来训练它,您可以想象它最终是否能够获得下降错误。

使用学生学校的平均通过百分比作为每个学生的新功能。

相关内容

  • 没有找到相关文章

最新更新