所以我终于OpenNLP纳入我的项目,我已经成功培训了15,000行的训练数据的我的模型,将其存储,并且可以加载它,当我想用它来识别我的程序中的实体! ,我用它来识别井号标签,所以我的训练数据看起来是这样的: ...
Jim , I know you to be a fighter <START:HASHTAG> #usmarine <END> @ USMC Kira has your
我有许多美国学校年鉴的人脸肖像和名称的扫描页面。来自页面的所有文本都是OCR化的并且每个页面以多个版本收集: 非结构化文本文件。 Example Xml带有每句话的坐标。 Example 带有每个单个字母的坐标的Xml。 Example 的目标是,以确定哪些文本字符串代表的人的名字,并将其与人像有关。问题在于每一本年鉴都是独一无二的,每一页都可能是独一无二的,所以没有共同的模式可以应用(但可能有一