2014-09-05 84 views
-4

我正在尝试制作一个应用程序,它可以从图像中生成可编辑的文档文件(doc或pdf)。我打算使用tesseract来提取文本。但是我不确定如何获得文档图像中可能存在的文字(大小,粗体,斜体,下划线)的基本格式。我打算使用J2EE来创建一个基于Web的应用程序(必须使用J2EE)。我想我可以使用OpenCV识别文档的组件和格式,但我不确定。将图像转换为文档

回答

1

鉴于您计划使用Tesseract作为基本的OCR功能,请尝试查看hORC格式的输出。这包括相当多的有关字体大小,字体面,位置等信息,

你可以找到HOCR的描述在这里: https://docs.google.com/document/d/1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview#heading=h.e903b9bca924

如果不奏效,这取决于您想要投入Tesseract多少努力。它的内部API(通过Tess4J等Java提供)确实提供了许多重构页面布局所需的信息。