检测OCR文本中出现乱码的文字是否有很好的NLP或统计技术?关于我的头脑,我认为考虑文本中n-gram的分布可能是一个很好的起点,但我对整个NLP领域来说很新颖。检测OCR文档中出现乱码的文本的最佳方法
以下是我已经看了迄今:
- N-gram Statistics in English and Chinese: Similarities and Differences
- Statistical Distributions of English Text
文本将大多是英文,但一般的解决方案将是很好。该文本目前在Lucene中编入索引,因此任何有关基于术语的方法的想法都会有用。
任何建议将是伟大的!谢谢!