2016-09-15 524 views
9

创建一个使用Tesseract的Java应用程序,以便将给定的图像或PDF转换为字符串格式,在我的机器上运行时使用它运行的junit单元测试伟大的,但运行完整系统,这是一个RESTful API由接收图像并运行正方体它给了我下面的错误Tomcat的运行时:Tesseract - 错误net.sourceforge.tess4j.Tesseract - null

23:22:36.511 [http-nio-9999-exec-3] ERROR net.sourceforge.tess4j.Tesseract - null java.lang.NullPointerException: null at net.sourceforge.tess4j.util.PdfUtilities.convertPdf2Png(PdfUtilities.java:107) at net.sourceforge.tess4j.util.PdfUtilities.convertPdf2Tiff(PdfUtilities.java:48) at net.sourceforge.tess4j.util.ImageIOHelper.getIIOImageList(ImageIOHelper.java:343) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:213) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:197) at ocr.OcrUtil.getString(OcrUtil.java:54) at com.tapd.server.api.handlers.IRSHandler.uploadIRSImage(IRSHandler.java:65) at com.tapd.server.api.WebAPIService.updateParentIrsForm(WebAPIService.java:250) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) at java.lang.reflect.Method.invoke(Unknown Source) at org.glassfish.jersey.server.model.internal.ResourceMethodInvocationHandlerFactory$1.invoke(ResourceMethodInvocationHandlerFactory.java:81) at org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher$1.run(AbstractJavaResourceMethodDispatcher.java:144) at org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher.invoke(AbstractJavaResourceMethodDispatcher.java:161) at org.glassfish.jersey.server.model.internal.JavaResourceMethodDispatcherProvider$ResponseOutInvoker.doDispatch(JavaResourceMethodDispatcherProvider.java:160) at org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher.dispatch(AbstractJavaResourceMethodDispatcher.java:99) at org.glassfish.jersey.server.model.ResourceMethodInvoker.invoke(ResourceMethodInvoker.java:389) at org.glassfish.jersey.server.model.ResourceMethodInvoker.apply(ResourceMethodInvoker.java:347) at org.glassfish.jersey.server.model.ResourceMethodInvoker.apply(ResourceMethodInvoker.java:102) at org.glassfish.jersey.server.ServerRuntime$2.run(ServerRuntime.java:309) at org.glassfish.jersey.internal.Errors$1.call(Errors.java:271) at org.glassfish.jersey.internal.Errors$1.call(Errors.java:267) at org.glassfish.jersey.internal.Errors.process(Errors.java:315) at org.glassfish.jersey.internal.Errors.process(Errors.java:297) at org.glassfish.jersey.internal.Errors.process(Errors.java:267) at org.glassfish.jersey.process.internal.RequestScope.runInScope(RequestScope.java:317) at org.glassfish.jersey.server.ServerRuntime.process(ServerRuntime.java:292) at org.glassfish.jersey.server.ApplicationHandler.handle(ApplicationHandler.java:1139) at org.glassfish.jersey.servlet.WebComponent.service(WebComponent.java:460) at org.glassfish.jersey.servlet.ServletContainer.service(ServletContainer.java:386) at org.glassfish.jersey.servlet.ServletContainer.service(ServletContainer.java:334) at org.glassfish.jersey.servlet.ServletContainer.service(ServletContainer.java:221) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:230) at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:165) at org.apache.tomcat.websocket.server.WsFilter.doFilter(WsFilter.java:52) at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:192) at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:165) at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:198) at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:108) at org.apache.catalina.authenticator.AuthenticatorBase.invoke(AuthenticatorBase.java:522) at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:140) at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:79) at org.apache.catalina.valves.AbstractAccessLogValve.invoke(AbstractAccessLogValve.java:620) at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:87) at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:349) at org.apache.coyote.http11.Http11Processor.service(Http11Processor.java:1110) at org.apache.coyote.AbstractProcessorLight.process(AbstractProcessorLight.java:66) at org.apache.coyote.AbstractProtocol$ConnectionHandler.process(AbstractProtocol.java:785) at org.apache.tomcat.util.net.NioEndpoint$SocketProcessor.doRun(NioEndpoint.java:1425) at org.apache.tomcat.util.net.SocketProcessorBase.run(SocketProcessorBase.java:49) at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source) at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source) at org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61) at java.lang.Thread.run(Unknown Source) [2016-09-14 23:22:36,512] [ERROR] java.lang.NullPointerException

我的猜测是,tessdata文件夹没有位于正确的地方当打包到一个Jar中并由tomcat运行时,它放错了位置,但是我找不到它应该放在哪里,并且我进行了双重检查以查看所有Jars是否正确部署。

编辑:因此看起来Tesseract在远程服务器(如AWS S3)上无法处理路径,所以问题是为什么?我该如何让它使用S3的路径? (是的文件是公开的)

+0

哪个版本的Tesseract? –

+0

我使用tess4j版本3.2.1 – Adi

+0

您可以显示[最小,完整和可验证示例](http://stackoverflow.com/help/mcve)? – LEQADA

回答

1

作为@Piotr R提到的错误是ghostscriptException.getCause()为空,原因是发送到Tesseract的文件对象中配置的路径不是有效的路径,现在对Tesseract有效的定义是与你的有所不同,他认为只有本地地址是有效的,所以当设置位于AWS S3上的文件时,即使它是公开的,也会引发错误。 解决方案在本地保存并在Tesseract完成后删除它。

+0

@Piotr RI没有GhostscriptException的堆栈跟踪,我也不能调试它,因为它是一个外部库,我访问s3的方式是不相关的,因为它不能访问本地没有存储的文件,这正是答案我正在寻找和解决方案。有人说我非常感谢你的帮助和支持,当我把自己标记为正确的答案时,不要担心,我不会得到奖励。 – Adi

4

我的猜测是,有GhostscriptException这是不正确记录,而这是导致NullPointerException异常:

https://github.com/nguyenq/tess4j/blob/212d72bc2ec8b3a4d4f5a18f1eb01a0622fc5521/src/main/java/net/sourceforge/tess4j/util/PdfUtilities.java#L107

106  } catch (GhostscriptException e) { 
107   logger.error(e.getCause().toString(), e); 
108  } finally { 

在管线107 - e.getCause ()(可能)为null,调用null.toString()引发NPE。

(从规格 - 的getCause可以为空: https://docs.oracle.com/javase/7/docs/api/java/lang/Throwable.html#getCause(),GhostscriptException也让事业为空:http://grepcode.com/file/repo1.maven.org/maven2/org.ghost4j/ghost4j/1.0.0/org/ghost4j/GhostscriptException.java

为了验证这个答案(而无需重新编译整个tess4j),你可以在启动程序调试模式并在第107行放置一个断点。这将为您提供有关真正异常的信息。

+0

我建议在OP的代码中用'String.valueOf(e.getCause())'替换'e.getCause()。toString()'在这种情况下是安全的。 – Axel

+0

我设法尽可能了解GhostscriptException为空,但真正的问题是为什么?我该如何解决它?以及为什么当我在本地运行它时(junit)它不会发生? – Adi

+0

“了解GhostscriptException为空” - 这是不正确的。 GhostscriptException不是null,GhostscriptException是Exception的有效实例。只有ghostscriptException.getCause()为null。要解决这个问题,请在调试模式下启动您的应用程序,并检查什么是异常消息 - 应该有更多的细节。 –