检测OCR文档中出现乱码的文本的最佳方法

检测OCR文本中出现乱码的文字是否有很好的NLP或统计技术？关于我的头脑，我认为考虑文本中n-gram的分布可能是一个很好的起点，但我对整个NLP领域来说很新颖。检测OCR文档中出现乱码的文本的最佳方法

以下是我已经看了迄今：

文本将大多是英文，但一般的解决方案将是很好。该文本目前在Lucene中编入索引，因此任何有关基于术语的方法的想法都会有用。

任何建议将是伟大的！谢谢！

2011-06-17 Luke Quinane

是的，在这种情况下最强大的是Ngrams。你应该把它们收集在相关的文本语料库上（与你的OCR文本有相同的主题）。这个问题与拼写检查非常相似 - 如果小的字符变化导致很大的可能性增加，这是一个错误。检查this tutorial如何使用ngram进行拼写检查。

来源

2011-06-17 07:13:52 yura

我在几年前使用了n-gram，结果相当不错。我使用了Apache Nutch的语言检测器，它在内部使用word和intraword n-gram。然后将文本的“ngram-profile”与培训资料的n-gram配置文件进行比较。除了语言之外，Nutch给出了评分/置信度值，并且我使用了基于语言（应该是文档所在的语言）和评分的硬性截止值。保留大部分加标签的文本，但这在计算上有些昂贵。

来源

2011-06-17 12:32:29

检测OCR文档中出现乱码的文本的最佳方法

回答

相关问题