2017-08-13 82 views
0

我正在寻求建议我应该使用Tesseract的哪个版本来训练具有独特字母的古代语言。在特性方面,该语言与阿拉伯语非常相似。它也从右到左,一些字母可以连接在单词中。换句话说,一封信可能有三种形状,取决于它是在开始,中间还是结束。它也有harakat(short vowel marks),出现在字母上方或下方。哪个版本的Tesseract用于培训新语言?

我问的原因是因为我想利用版本3.X的可用工具,但this warning关于阿拉伯语扔我离开,因为这种语言是非常相似。

对于任何熟悉Tesseract的人,您推荐使用哪种版本来训练这种语言?另外,如果您知道更好的工具,请分享它。

回答

1

如果你有大量的文件需要OCR,建议使用Tesseract 4.0,因为它的速度更快。如果您以前没有阅读过这些内容,您可以参考以下内容获取更多信息。

  1. Tesseract 4.0 Accuracy and Performance
  2. Tesseract 4.0 with LSTM
  3. Training Tesseract 4.0
  4. Language Data File for 4.0,你可能有一个测试,看看是否Arbic OCR在OCR引擎模式1工作正常(即--oem 1),这是神经网仅LSTM。

Tesseract 4.0.0 alpha自去年11月/ 12月以来已经发布。

希望得到这个帮助。