使用ExtractText命令行工具提取空间错误字符

-1

用于提取文件的命令是java -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdf。同样的输出。使用ExtractText命令行工具提取空间错误字符

This%is%one% 
This%is%two% 
This%is%three% 
This%is%four%

检查PDF与PDFDebugger。我看到混乱的“％”

Code Glyph Name Unicode Character Glyph 
37 1   %     None

可否请您如何正确地提取在这种情况下，文本时有统一码但是字型不存在以下条目？我期待下面的输出结果，因为“％”字符永远不会在pdf中呈现。

This is one 
This is two 
This is three 
This is four

输入pdf文件是here。

2017-09-02 kaza

什么不起作用？你在期待什么？什么是“麻烦”的'％'？最重要的是，“DiffSzSpaceIssue.pdf”中的内容以及为什么输出错误？你是否检查过PDF编辑器以查看它包含的内容？ –

嘿@Jim，编辑的问题更清楚。 PDF看起来不错，因为字符“％”（不确定它来自哪里）永远不会被pdf渲染，因为它没有图形等效映射。 – kaza

我认为这对于PDFBox支持[用户邮件列表]（https://pdfbox.apache.org/mailinglists.html）更合适，因为这很可能是一个错误。 –

显然有时候Unicode映射在某些pdf中可能是错误的，在这种情况下，需要删除Unicode映射并重新尝试提取。这个问题清楚地指出了映射的错误。 %->None（Unicode-> Glyph） https://stackoverflow.com/a/45922162/6935152

2017-09-02 05:10:26 kaza

没有机会尝试。但如果这不起作用，会发布。 – kaza

回答