如何自定义Tesseract忽略噪音？

正如已经sugested - 尝试使用erode和dilate或某种模糊的。这是最简单的解决方案。
查找所有等高线（findContours函数），然后删除面积小于某个值的所有等值线（尝试不同的值，您应该找到正确的等高线）。请注意，该值可能不是恒定的 - 例如，您可以尝试使用平均轮廓面积的80％（只需添加所有轮廓面积，再除以轮廓数量并乘以0.8）。
查找所有等高线。创建一个整数数组，长度等于图像高度。用零填充数组。现在为每个轮廓：
I.找到顶部和底部点（y坐标的最大值和最小值的点）。我们来命名这个点T和B。
二，将一个索引在B.y和T.y之间的所有元素添加一个。（所以如果B =（1,4）并且T =（3,11），则向数组[4]，数组[5]，数组[6] ...，数组[11]）加1。
找到数组的最大元素。我们将这个值命名为v。所有轮廓B.y <= v <= T.y应该是字母，其他轮廓 - 噪音。

2013-04-07 15:12:49 cyriel

做连接组件标签....这是blob计数....所有剂量噪声永远不会匹配数字的大小....与形态学技术的数字也得到修改...标签image ...计算每个标记区域中的像素数量并设置一个阈值（您可以轻松设置，因为您只会有数字和噪音）... cvblob是用C++编写的代码库，可供用户使用...

2013-04-07 16:07:38

通过使用图像处理技术（形态学操作，如侵蚀和扩张），您可以轻松去除这些噪音，您可以选择opencv进行此操作。

2017-07-27 08:34:58 Aditya

回答