2013-05-02 551 views
2

我试图比较两个简历。我有一个标准,如果某些领域匹配它是重复的。您可能知道,简历样式不同。我如何理解名称字段是名称字段,因此我可以将其存储在某个地方,并将其与另一个简历中的相同字段进行比较?使用自然语言处理解析.Net框架中的解析

截至目前,我已经使用了Interop方法,并且我正在获取字符串中的所有文档内容。从字符串我分裂所有的\ t,\ r和空格,并获得一个数组。从数组,我怎么能得到我自己的标准的XML格式如下图所示:

XML格式:

<CANDIDATE_FULL_NAME>CandidateName here</CANDIDATE_FULL_NAME> 
<CANDIDATE_FIRST_NAME>CandidateFirstName here</CANDIDATE_FIRST_NAME> 
<CANDIDATE_LAST_NAME>CandidateLastName here</CANDIDATE_LAST_NAME> 
<PRIMARY_EMAI`enter code here`L_ID>[email protected]</PRIMARY_EMAIL_ID> 
<PHONE_BASIC>+919720018454155</PHONE_`enter code here`BASIC> 
<DOB>8/2/1987</DOB> 
<STREET1></STREET1> 
<STREET2></STREET2> 
<CITY></CITY> 
<REGION></REGION> 
<COUNTRY></COUNTRY> 
<PIN></PIN> 

审查我的问题后,很明显,我认为我不知道我在做什么并且我们将非常感谢一个起点。

回答

0

Ganesh, 我建议建立自己的逻辑。 以下是您可以使用的内容。

  1. 获取所有简历分为字段。
  2. 然后你可以给每个领域的体重年龄。

     
    Email - 80 
    Phone - 80 
    Name - 20 
    Highest Education - 20 
    Home city - 20 
    Last companies worked - 20 
    DOB - 30 
    and others 
    
  3. 然后添加数字,看他们的总数是80或以上。
  4. 如果不止于此,那么你可以说它的同一个简历。
  5. 但如果没有,那么你知道什么。
  6. 挑战是多少领域,以及你如何分裂他们。我建议使用一些简历解析器并建立逻辑。