我试图从PDF文件中提取文本:http://www.filedropper.com/copy_1,但是我得到的文本不到一页的一半。 我使用iTextSharp的:PDF提取不完整
PdfReader reader = new PdfReader(file);
string currentText = PdfTextExtractor.GetTextFromPage(reader, 1);
我已经使用的,以及代替默认LocationTextExtractionStrategy SimpleTextExtractionStrategy:
PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy())
最初是从微软报表服务生成的文件(我没有一个访问),并且我已经提取了一个页面来测试文本提取。
任何人都可以帮忙吗?
您的PDF根本不包含根据PDF规范进行文本提取所需的信息。尝试从Adobe Reader复制并粘贴缺失的文本部分,您会发现它也会失败。 Microsoft Reporting Service长期以来一直在创建不足以进行文本提取的PDF。 – mkl
此外,发布代码时,请以合理的方式进行。您发布的代码会创建一个PDF阅读器和一个不用于任何内容的提取策略,然后文本提取器使用默认的提取策略从一些模子的阅读器中提取... – mkl
感谢您的答复。就像你问的那样,我修复了那些无知的代码。 如果acrobat阅读器显示它,它如何不包含信息(如数字值)? – Hefass