将图像转换为文档

-4

我正在尝试制作一个应用程序，它可以从图像中生成可编辑的文档文件（doc或pdf）。我打算使用tesseract来提取文本。但是我不确定如何获得文档图像中可能存在的文字（大小，粗体，斜体，下划线）的基本格式。我打算使用J2EE来创建一个基于Web的应用程序（必须使用J2EE）。我想我可以使用OpenCV识别文档的组件和格式，但我不确定。将图像转换为文档

来源

2014-09-05 Shaurya Chaudhuri

鉴于您计划使用Tesseract作为基本的OCR功能，请尝试查看hORC格式的输出。这包括相当多的有关字体大小，字体面，位置等信息，

你可以找到HOCR的描述在这里： https://docs.google.com/document/d/1QQnIQtvdAC_8n92-LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview#heading=h.e903b9bca924

如果不奏效，这取决于您想要投入Tesseract多少努力。它的内部API（通过Tess4J等Java提供）确实提供了许多重构页面布局所需的信息。

来源

2014-09-10 18:29:24

将图像转换为文档

回答

相关问题