2
我正在使用Apache PDFBox从几个PDF文件中提取文本。这些文件使用波兰语,并且包含波兰语字符。不幸的是,当我打印提取的文本时,我不断收到? (问号)而不是那些字符。由PDFBox提取的文本不包含国际(非英文)字符
我正在使用Apache PDFBox从几个PDF文件中提取文本。这些文件使用波兰语,并且包含波兰语字符。不幸的是,当我打印提取的文本时,我不断收到? (问号)而不是那些字符。由PDFBox提取的文本不包含国际(非英文)字符
假设你提取文本存储在一个String,我假设你正在使用这种打印 -
System.out.println(s);
我建议你使用这个代码段用于打印出波兰字符properly-
java.io.PrintStream p = new java.io.PrintStream(System.out,false,"UTF-8");
p.println(s);
这应该工作吗?将不会出现在打印文本中。
其实,我使用的是System.out和log4j。但是,您的答案解决了我的问题!谢谢! – Lukasz 2012-07-15 23:33:00