2014-11-20 82 views
2

当使用创建聚类数据培训正方体新字体

mftraining -F font_properties -U unicharset -O lan.unicharset *.tr 

我得到以下信息

C:\Users\ \AppData\Local\Tesseract-OCR>mftraining -F font_properties -U unicharset -O eng1.unicharset eng.lucidaconsole.box.tr <http://eng.lucidaconsole.box.tr> 

Warning: No shape table file present: shapetable 
Failed to load unicharset from file unicharset 
Building unicharset for training from scratch... 
Failed to load unicharset from file unicharset 
Building unicharset for boosting from scratch... 
Failed to load unicharset from file unicharset 
Building unicharset for boosting from scratch... 
Failed to load unicharset from file unicharset 
Building unicharset for boosting from scratch... 
Reading eng.lucidaconsole.box.tr <http://eng.lucidaconsole.box.tr> ... 

Flat shape table summary: Number of shapes = 0 max unichars = 0 number with multiple unichars = 0 

Done! 

它重建了,我已经做了unicharset并给我一个与1KB 价值只有这个数据

1 
NULL 0 NULL 0 

在这一点上,我不k现在该怎么做。我是这个程序的第一次使用者,但对我来说这似乎不正确?

+0

我为你清理了你的问题。请在发布时尽量让事情看起来不错,并欢迎来到StackOverflow。 – mlissner 2014-11-20 20:15:38

回答

1

看起来您需要对培训页面的字符特征进行聚类,如here所述。

我相信这个基本的命令是一样的东西:

shapeclustering -F font_properties -U unicharset lang.fontname.exp0.tr lang.fontname.exp1.tr ... 

这似乎是在3.02版本中添加一些东西。

+0

你知道链接页面移到哪里吗?我找不到一个好匹配。谢谢 – 2016-04-18 17:00:02

+0

可悲的是。来自Google代码的Exodus会带来收益。 – mlissner 2016-04-18 17:37:47

0

如果您使用Windows,我认为this tool可以帮助您使训练过程变得更加简单。在使用之前,我经历了很多学习如何训练Tesseract的麻烦。只需下载最新版本并阅读用户手册,您就可以在不碰触键盘的情况下培训您Tesseract!