信息检索—要检索唯一实例的数据挖掘任务



我从事数据挖掘工作,熟悉分类、聚类和回归任务。在分类中,可以有很多实例(例如动物)、它们的特征(例如腿的数量)和一个类别(例如哺乳动物、爬行动物)。

但我需要完成的是,给定一些属性,包括class属性,来确定我指的是哪个唯一的实例(例如长颈鹿)。我可以提供我所拥有的所有已知属性,如果模型无法找到答案,它可以要求另一个属性——类似于20个问题的游戏风格。

所以,我的问题是:这个特定的任务有名字吗?它似乎类似于分类,即类对每个实例都是唯一的,但这不适合当前的训练模型,可能除了决策树模型。

您的输入,在机器学习中表示为特征,是物种的元组(我认为您所说的"实例")和物理属性。你的产出是更广泛的分类等级。因此,为每个输入分配一个是一个分类问题。由于您的功能不完整,您希望执行<数据不完整的em>分类,或估算缺失特征。搜索这些术语会给你足够的线索。

(另一个任务正确地称为集群。)

IMHO您正在寻找的只是一个决策树

除了,你不是在你的类别属性(你的"类")上训练它,而是在单个实例标签上训练它。

不过,你需要仔细选择拆分度量,因为许多度量都适用于班级规模——现在你所有的班级都有1号。为决策树找到一个好的分割可能需要提前计划一些分割,以获得最佳平衡树。随机森林式的方法可能有助于提高找到一棵好树的机会。

最新更新