2017-10-22 181 views
0

我正在阅读此slide。我很难理解这种方法。使用Solr和TIKA恢复解析

我的两个查询是:

  1. 如何Solr保持semi-structured document像 简历(如姓名,技能,教育等)
  2. 可以Apache TIKA提取PDF文件的部分智慧信息架构?由于每个简历都有不同的部分,我如何定义实体的通用模式?

回答

0
  1. 您定义的模式,让你得到的字段,你期望并可以基于你想要做什么样的查询不同字段进行搜索。您可以将任何未知(即您不确定其所属的位置)值归入公共搜索字段,并将该字段排在较低的位置。

  2. 您必须自己解析Tika(或其他PDF/docx解析器)的响应。仅仅使用Tika本身不会给你一个自动结构化的响应,以适应你想要解决的问题。将会有大量的手动解析并尝试理解上传文档的内容,然后将相关数据插入到相关字段中。

0

我们用solr和elastic search做了很多实现。
并得到了两方面的挑战

  1. 定义架构和更具体的获取文件定模式
  2. 随后扩大搜索条件,更准确,更有效的匹配。 Solr,Elastic可以匹配从内容获得的内容,但不能超出内容。

您需要使用Resume Parser,如www.rchilli.com,Sovrn,daxtra,hireability或任何其他人,并使用他们的输出和映射到您的模式。最好的部分是你可以访问分类法来增强你的内容。 您可以根据您的预算和需求使用任何一种。但对于我们来说,RChilli工作得最好。

让我知道你是否需要任何进一步的帮助。