2017-10-10 156 views
1

我有许多美国学校年鉴的人脸肖像和名称的扫描页面。来自页面的所有文本都是OCR化的并且每个页面以多个版本收集:从非结构化年鉴文本中提取人名

  1. 非结构化文本文件。 Example
  2. Xml带有每句话的坐标。 Example
  3. 带有每个单个字母的坐标的Xml。 Example

Sample yearbooks page

的目标是,以确定哪些文本字符串代表的人的名字,并将其与人像有关。问题在于每一本年鉴都是独一无二的,每一页都可能是独一无二的,所以没有共同的模式可以应用(但可能有一些常见模式)。另一个问题是,除了名称外,这些网页还包含许多其他文字,收藏量也很大。上述

例子用大写字母书写的名字,这样他们就可以很容易识别,但它不是常见的情况。

又如:

Sample yearbooks page Text/XML1/XML2

这里是few more examples

我想在几个方向:

  1. 美国名称的使用字典建设索引并搜索每个 单个单词f从此索引中的页面查找可能的名称。
  2. 使用名称 - 无意识识别。我试过opennlp Java库,但是 它只适用于以大写字母开头的名称。 也许其他图书馆将工作。
  3. 训练一些神经网络。这可能会比 前两个选项更好吗?

你可以建议哪些算法可以帮助解决这个问题?

+0

(1)这是非常广泛! (2)在第一个示例中,您可以使用面部检测,然后使用性别识别,这使得更容易推理哪些名称映射到哪个图像(主要是行主要列主要排序)。 (3)在第二个例子中,我无法将这些名称映射到图像。在这种情况下,你的算法需要比我更强大。 **编辑:**在第二眼,我可以。所以我的推理再次仅仅基于(2)中提到的方法。 (4)旁注:你可以发布这些吗?如果这些是真实的年鉴,我国可能会不允许在这里发布这些信息。 – sascha

+0

现在的主要目标是从文本中提取姓名(名字和姓氏)与人像相关似乎更容易。 –

+0

那么你如何在示例2中映射这些图?这几乎是50/50(或更糟糕的)猜测。 – sascha

回答

0

这可能听起来很傻,但我的第一个想法:名姓似乎大写

在一个更严重的是:小姐的xxx YYY或先生的xxx YYY为正则表达式(即含“树林”开始大写), - 或者对所有单词做出清晰的列表,过滤出来自词典的意思(例如R package tidytext的意见)并检查其余部分,并结合定制的两种方法。

我想探索数据这种方式会产生大量的您才去了NNET需要的见解

+0

名称不总是用大写字母写的问题。此外,页面上的更多文本可以用与大写字母相同的方式书写。有时候,名字可能会在正常情况下发生,但学校团队或其他事件可能会以大写字母形式出现有先生小姐前缀并不常见。 –

1

事实上NER将是有益的,使用现有的软件是好,但我建议,对于这样一个子域(人名) ,使用可能的名字/姓氏列表作为特征和标准线索(例如,大写字母,小姐/先生)来实现特设算法。

使用男性/女性特征将姓名与肖像关联起来肯定是一个好主意。

将两者分开(名称识别/人像匹配)作为模棱两可的过程会很好:它将允许在可能的假设中选择最大化其他标准的那些:名称与人像的数量nb,关联布局的规则性名字与肖像等

大多数常识,但我希望它有一点帮助!

PS不要忘记的情况下是不可能的姓名与肖像,通过似然的阈值相关联,例如(乍一看这似乎是你的最后一张照片的情况?)