2017-09-02 96 views
-1

用于提取文件的命令是java -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdf。同样的输出。使用ExtractText命令行工具提取空间错误字符

This%is%one% 
This%is%two% 
This%is%three% 
This%is%four% 

检查PDF与PDFDebugger。我看到混乱的“%”

Code Glyph Name Unicode Character Glyph 
37 1   %     None 

可否请您如何正确地提取在这种情况下,文本时有统一码但是字型不存在以下条目?我期待下面的输出结果,因为“%”字符永远不会在pdf中呈现。

This is one 
This is two 
This is three 
This is four 

输入pdf文件是here

+0

什么不起作用?你在期待什么?什么是“麻烦”的'%'?最重要的是,“DiffSzSpaceIssue.pdf”中的内容以及为什么输出错误?你是否检查过PDF编辑器以查看它包含的内容? –

+0

嘿@Jim,编辑的问题更清楚。 PDF看起来不错,因为字符“%”(不确定它来自哪里)永远不会被pdf渲染,因为它没有图形等效映射。 – kaza

+0

我认为这对于PDFBox支持[用户邮件列表](https://pdfbox.apache.org/mailinglists.html)更合适,因为这很可能是一个错误。 –

回答

1

显然有时候Unicode映射在某些pdf中可能是错误的,在这种情况下,需要删除Unicode映射并重新尝试提取。这个问题清楚地指出了映射的错误。 %->None(Unicode-> Glyph) https://stackoverflow.com/a/45922162/6935152

+0

没有机会尝试。但如果这不起作用,会发布。 – kaza