我使用的是itext 5.3.4从PDF文件中提取文本。我正在使用的代码如下:通过iText提取PDF文本返回奇怪字符
PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader);
TextExtractionStrategy strategy;
StringBuffer sb = new StringBuffer();
for (int i = 1; i <= pdfReader.getNumberOfPages(); i++)
{
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
sb.append(strategy.getResultantText());
}
String text = sb.toString();
然而,对于特定的PDF,ë返回为°。任何想法为什么会发生这种情况,以及可以做些什么?这是在itext库中的错误还是在构建PDF时出现错误?
感谢您的协助。
首先要测试的东西 - 不用担心,这很简单 - 就是用Acrobat Reader复制文本并粘贴到别处。如果Acrobat Reader无法忠实地阅读文本,则问题出现在PDF中的可能性很高。 – usr2564301
还有一件事要做:请更新。 5.3.x版本是文本提取代码发生变化的时候。 – mkl
请参阅http://stackoverflow.com/a/32929474/1520650以获取类似问题以及此行为的可能解释。 – rhens