我已经使用OCR(光学字符识别)从图像中获取文本。图像包含书籍封面。由于图像太吵,某些字符被误识别,或者某些噪声被识别为字符。嘈杂文本的字符串匹配算法
实例:
- “瓦特COMPUTER Nnwonxs I I”(Compuer网络)
- “s.ll神经网络C”(神经网络)
- “1llllll INFRODUCIION RO概率TI iitiiili我” (概率介绍)
我建立了一个字典词典,但我想以某种方式匹配识别的文本与字典。我尝试了LCS(最长的公共子序列),但它不那么有效。
什么是这种问题的最佳字符串匹配算法? (所以字符串的一部分只是噪声,但也是字符串的重要部分可能有一些错误识别的字符)
也许Levenshtein距离将用于匹配您的字典中的“小破”字? – 2014-11-02 01:25:22
什么语言? – 2015-11-11 19:50:51