我正在看这张幻灯片。我在理解这种方法方面几乎没有困难。
我的两个查询是:
Solr
如何维护semi-structured document
模式简历(如姓名、技能、教育等)Apache TIKA
可以从PDF中提取章节信息吗?由于每份简历都有不同的部分,我该如何定义实体的通用架构?
-
您可以定义架构,以便获得所需的字段,并可以根据要执行的查询类型在不同的字段中进行搜索。您可以将任何未知值(即您不确定它属于何处)集中到一个通用搜索字段中,并将该字段排名较低。
-
您必须自己解析来自 Tika(或其他 PDF/docx 解析器)的响应。仅仅使用 Tika 本身不会给你一个自动结构化的响应,以适应你试图解决的问题。将有大量手动解析并尝试从上传的文档中理解内容,然后将相关数据插入相关字段。
我们使用solr和弹性搜索进行了许多实现。
并遇到了两个挑战
- 定义架构和更具体的将文档获取到给定架构
- 然后扩展搜索词以更准确和有用的匹配。Solr,Elastic可以匹配他们从内容中获得的内容,但不能超出该内容。
您需要使用恢复解析器,如 www.rchilli.com,Sovrn,daxtra,可雇用性或任何其他,并使用它们的输出并映射到您的架构。最好的部分是您可以访问分类法以增强您的内容是 solr。您可以根据预算和需求使用任何一个。但对我们来说,RChilli 效果最好。
如果您需要任何进一步的帮助,请告诉我。