恢复解析器准确性基准测试



我目前正在使用一个简历解析器API,该解析器通过REST API调用批量解析简历,并以JSON形式提供输出。我试图评估提取的信息(如教育、经验、技能、概述(是否与原始简历相符。是否有任何命名实体识别管道来测试准确性?

我曾尝试用一条特定的信息(如教育、经验、技能、概述(计算原始简历和文本块之间的余弦相似度,但我正在寻找更复杂、更准确的方法来实现这一点。我最近发现http://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/,但是,我仍然在寻找一些能够解释简历特殊性的东西,包括章节和小节。

要测试简历解析器的准确性,您确实需要自己构建一个解析器,但这并不容易。请注意,NER标记/评估只是流程中的一小步。还有很多微妙之处在你的评分算法中可能看起来微不足道,但对人类来说很重要,比如知道某个日期范围适用于他们在微软工作的时间,而不是他们在大学学习的时间。

我认为有两种方法:

  1. 只需手动查看50份简历的输出,并手动对输出的质量进行评分
  2. 使用另一个第三方API(其中大多数将提供免费试用版(,并通过程序比较输出。(例如,尝试https://affinda.com/resume-parser/,它是我最近帮助构建的(

最新更新