2011-06-17 76 views
4

检测OCR文本中出现乱码的文字是否有很好的NLP或统计技术?关于我的头脑,我认为考虑文本中n-gram的分布可能是一个很好的起点,但我对整个NLP领域来说很新颖。检测OCR文档中出现乱码的文本的最佳方法

以下是我已经看了迄今:

文本将大多是英文,但一般的解决方案将是很好。该文本目前在Lucene中编入索引,因此任何有关基于术语的方法的想法都会有用。


任何建议将是伟大的!谢谢!

回答

4

是的,在这种情况下最强大的是Ngrams。你应该把它们收集在相关的文本语料库上(与你的OCR文本有相同的主题)。这个问题与拼写检查非常相似 - 如果小的字符变化导致很大的可能性增加,这是一个错误。检查this tutorial如何使用ngram进行拼写检查。

1

我在几年前使用了n-gram,结果相当不错。我使用了Apache Nutch的语言检测器,它在内部使用word和intraword n-gram。然后将文本的“ngram-profile”与培训资料的n-gram配置文件进行比较。除了语言之外,Nutch给出了评分/置信度值,并且我使用了基于语言(应该是文档所在的语言)和评分的硬性截止值。保留大部分加标签的文本,但这在计算上有些昂贵。