为培训实例分配特定权重的策略



我正在研究机器学习分类模型,在该模型中,用户可以提供应有助于改善模型的标签实例。与以前可用于培训的情况相比,用户给出的最新实例需要更多的相关性。

特别是,我使用Sklearn库在Python中开发了我的机器学习模型。

到目前为止,我只发现过度采样特定实例的策略是解决问题的可能解决方案。通过这种策略,我将创建多个我想给出更高相关性的实例的副本。

我发现的其他策略,但在这些条件下似乎没有帮助:

  • 专注于为每个班级提供权重的策略。默认情况下,该策略高度使用在Sklearn等多个库中。但是,这将这个想法推广到班级级别,并没有帮助我专注于特定实例

我正在寻找多种策略,这些策略可能有助于为单个实例提供特定的权重,但大多数都专注于班级级别而不是实例级别的权重。

我通过某些因素读取了一些损失函数的建议,这些因素是张量流模型中的一些实例,但这似乎主要适用于张量流中的神经网络模型。

我想知道是否有人有其他方法可能有助于解决此问题的信息

我正在寻找多种策略,这些策略可能有助于为单个实例提供特定的权重,但大多数都专注于班级级别而不是实例级别的权重。

这是不准确的;大多数Scikit-Learn分类器在其fit方法中都提供了sample_weight参数,该参数完全可以做到这一点。例如,这是逻辑回归的文档参考:

sample_weight:类似数组,shape(n_samples,(可选

分配给各个样本的权重阵列。如果未提供,则给出每个样品的单位重量。

大多数Scikit-Learn分类器都存在类似的论点,例如决策树,随机森林等,甚至用于线性回归(不是分类器(。确保检查文档中的SVM:加权样本示例。

其他框架大致相似。例如,请参见pyspark中的自己的答案。

更重要的是,Scikit-Learn还提供了一个实用程序功能来计算sample_weight的情况下,在不平衡数据集的情况下:sklearn.utils.class_weight.compute_sample_weight

最新更新