用于提取文件的命令是java -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdf
。同样的输出。使用ExtractText命令行工具提取空间错误字符
This%is%one%
This%is%two%
This%is%three%
This%is%four%
检查PDF与PDFDebugger。我看到混乱的“%”
Code Glyph Name Unicode Character Glyph
37 1 % None
可否请您如何正确地提取在这种情况下,文本时有统一码但是字型不存在以下条目?我期待下面的输出结果,因为“%”字符永远不会在pdf中呈现。
This is one
This is two
This is three
This is four
输入pdf文件是here。
什么不起作用?你在期待什么?什么是“麻烦”的'%'?最重要的是,“DiffSzSpaceIssue.pdf”中的内容以及为什么输出错误?你是否检查过PDF编辑器以查看它包含的内容? –
嘿@Jim,编辑的问题更清楚。 PDF看起来不错,因为字符“%”(不确定它来自哪里)永远不会被pdf渲染,因为它没有图形等效映射。 – kaza
我认为这对于PDFBox支持[用户邮件列表](https://pdfbox.apache.org/mailinglists.html)更合适,因为这很可能是一个错误。 –