我在这里发现了一个相关的问题:如何在机器学习中更加重视某些功能? 但是是针对特征的。
假设我有一个包含 N
个带有标签的实例(或N
行)的数据集。
我知道有些标签是基本事实,而其他一些标签是不确定的,即某些标签中有噪音。
例如,如何将这些信息合并到机器学习模型中,例如xgboost
,告诉xgboost
对具有已验证标签的实例比具有未验证标签的实例更重视?
您可以构造一个DMatrix
并使用其 weight
属性来初始化每个实例的权重。在此处查看文档
或从拟合方法sample_weight