针对结构化数据的小型数据集的迁移学习



我希望实现机器学习,以解决建立在与特定供应链领域中的费用审批相关的小数据集上的问题。通常标记的数据不可用

我希望在一个标记为数据的数据集中构建模型,然后使用在类似环境中开发的模型,其中特征集非常相似,但不完全相同。我们的期望是,这将为建议提供起点,并在新的环境中收集标记的数据。

我明白这就是迁移学习的本质。我在这个领域读到的大多数例子都是关于图像数据集的——任何关于如何在使用标准的基于树的分类算法的小数据集中利用这一点的指导

我真的不能和基于树的算法说话,我不知道如何用它们进行迁移学习。但是,对于深度学习模型,迁移学习的常规方法是加载预训练的模型,然后使用新数据重新训练数据集的最后一层,然后微调网络的其余部分。

如果你没有太多的数据,你可以考虑创建合成数据。

raghu,我相信当你在说深度学习中的抽象层时,你正在寻找一种内核方法。有几种ML算法支持内核函数。使用内核函数,您可能能够做到这一点;但是使用内核函数可能比解决最初的问题更复杂。我倾向于Tdoggo关于使用决策树的建议。

对不起,我想添加评论,但他们不允许我,所以我发布了一个新的答案。

好吧,使用基于树的算法,你可以按照你说的做:在一个数据集上训练树,并将其应用于另一个类似的数据集。您所需要做的就是更改第二个树上的术语/节点。

例如,假设你有一个为建筑公司过滤费用而训练的决策树。你将完全拒绝为工作簿报销任何费用,因为工人应该自己提供。

你想在你的会计师事务所使用经过训练的树,所以你把这个词改为笔记本电脑,而不是工作簿,因为会计师应该自己买。

这有道理吗?这对你有帮助吗?

经过一些研究,我们决定继续使用随机森林模型,直觉是原始模型中具有共同特征的树将构成决策的起点。

随着我们在新的上下文中获得更多的标记数据,我们将开始用新的树替换原始树,新的树包括(a(仅新的特征和(b(新旧特征的组合

这为的初步试验提供了合理的结果

最新更新