为培训实例分配特定权重的策略

我正在研究机器学习分类模型，在该模型中，用户可以提供应有助于改善模型的标签实例。与以前可用于培训的情况相比，用户给出的最新实例需要更多的相关性。

特别是，我使用Sklearn库在Python中开发了我的机器学习模型。

到目前为止，我只发现过度采样特定实例的策略是解决问题的可能解决方案。通过这种策略，我将创建多个我想给出更高相关性的实例的副本。

我发现的其他策略，但在这些条件下似乎没有帮助：

我正在寻找多种策略，这些策略可能有助于为单个实例提供特定的权重，但大多数都专注于班级级别而不是实例级别的权重。

我通过某些因素读取了一些损失函数的建议，这些因素是张量流模型中的一些实例，但这似乎主要适用于张量流中的神经网络模型。

我想知道是否有人有其他方法可能有助于解决此问题的信息

我正在寻找多种策略，这些策略可能有助于为单个实例提供特定的权重，但大多数都专注于班级级别而不是实例级别的权重。

这是不准确的；大多数Scikit-Learn分类器在其fit方法中都提供了sample_weight参数，该参数完全可以做到这一点。例如，这是逻辑回归的文档参考：

sample_weight：类似数组，shape(n_samples，(可选

分配给各个样本的权重阵列。如果未提供，则给出每个样品的单位重量。

大多数Scikit-Learn分类器都存在类似的论点，例如决策树，随机森林等，甚至用于线性回归(不是分类器(。确保检查文档中的SVM：加权样本示例。

其他框架大致相似。例如，请参见pyspark中的自己的答案。

更重要的是，Scikit-Learn还提供了一个实用程序功能来计算sample_weight的情况下，在不平衡数据集的情况下：sklearn.utils.class_weight.compute_sample_weight

相关内容