我有许多美国学校年鉴的人脸肖像和名称的扫描页面。来自页面的所有文本都是OCR化的并且每个页面以多个版本收集:从非结构化年鉴文本中提取人名
的目标是,以确定哪些文本字符串代表的人的名字,并将其与人像有关。问题在于每一本年鉴都是独一无二的,每一页都可能是独一无二的,所以没有共同的模式可以应用(但可能有一些常见模式)。另一个问题是,除了名称外,这些网页还包含许多其他文字,收藏量也很大。上述
例子用大写字母书写的名字,这样他们就可以很容易识别,但它不是常见的情况。
又如:
我想在几个方向:
- 美国名称的使用字典建设索引并搜索每个 单个单词f从此索引中的页面查找可能的名称。
- 使用名称 - 无意识识别。我试过
opennlp
Java库,但是 它只适用于以大写字母开头的名称。 也许其他图书馆将工作。 - 训练一些神经网络。这可能会比 前两个选项更好吗?
你可以建议哪些算法可以帮助解决这个问题?
(1)这是非常广泛! (2)在第一个示例中,您可以使用面部检测,然后使用性别识别,这使得更容易推理哪些名称映射到哪个图像(主要是行主要列主要排序)。 (3)在第二个例子中,我无法将这些名称映射到图像。在这种情况下,你的算法需要比我更强大。 **编辑:**在第二眼,我可以。所以我的推理再次仅仅基于(2)中提到的方法。 (4)旁注:你可以发布这些吗?如果这些是真实的年鉴,我国可能会不允许在这里发布这些信息。 – sascha
现在的主要目标是从文本中提取姓名(名字和姓氏)与人像相关似乎更容易。 –
那么你如何在示例2中映射这些图?这几乎是50/50(或更糟糕的)猜测。 – sascha