使用P@1评估特定的信息检索系统



我正在开发一个信息检索系统,该系统旨在选择第一个结果并将其链接到其他数据库。事实上,我们的系统是基于视频的关键词描述,并试图将视频链接到具有相同描述含义的DBpedia实体。在评估步骤中,我注意到大多数评估都将精度截止值的最小值设置为5,而在我们的系统中是不合适的。我想放一个区间[1,5]:(P@1,...P@5)。有可能吗!!请提供你的建议和你对一些注意事项的参考。。谢谢

如果你有真值标签,你肯定可以为检索系统计算p@1。(在这种情况下,听起来像是人类生成的[视频,DBPedia]匹配对)。

人们通常会将这种衡量标准用于问答或推荐系统等方面。唯一需要注意的是,你通常不会用它来训练一个从学习到排名的系统或任何其他学习系统——它不够"连续"——一次未遂(最好排名2)和一次总失误(最好排名400万)得到的分数相等,所以在这种情况下,很难通过调整权重来顺利改进系统。

对于这些类型的任务,如果你需要一些可调的东西,使用平均倒数排名是非常常见的。此外,NDCG也可以,因为它有指数贴现因子。

但在精度的定义中没有任何东西可以阻止你在排名1时计算它。将其描述为"success@1"功能,因为你将获得0/1或1/1作为你的两个选项。

最新更新