Ghostscript不从PDF文件中提取所有文本

我使用ghostscript 8.71从PDF页面提取文本。Ghostscript不从PDF文件中提取所有文本

我使用的命令是：

gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \ 
     -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \ 
     -dLastPage=1 input.pdf -dQUIET

，我使用<stdout>指导文本到另一个文件。

但问题是一些可搜索的文本项目不是由Ghostscript提取的。

某些字体文本未被提取，例如：粗体字的Verdana。但Ghostscript正在打开字体文件。

我可以上传PDF文件，但在这里我没有找到任何上传选项。如果有任何选项可用，请告诉我。

来源

2010-09-01 anil

您是否还尝试了其他命令行工具来提取文本，如pdftotext from the XPDF package？这些如何比较？

您能否提供更多关于输出中缺少什么的细节？只是某些类型的字符，只是某些字体，只是某些页面？此外，您正在将Linux/Unix语法（"gs"）与Windows语法（"c:\fonts"）混合使用。在Windows系统中，其中的字体通常被托管的默认位置是C：\的Windows \字体 ...

哦，是的：有你的问题的PDF文件看肯定会有所帮助。

来源

2010-09-01 22:42:07

感谢您的回答。我只需要使用GhostScript进行文本提取。我已将c：\ windows \ fonts中的所有字体复制到c：\ fonts，其中还包含ghost脚本type1字体。 – anil 2010-09-02 12:50:56

告诉我任何选项来上传我的PDF文件。等待您的回复。 – anil 2010-09-02 12:52:08

互联网上有免费上传服务，只是谷歌为他们。此外，你应该*仍然至少从我命名的同一个包中尝试'pdftotext'（以及'pdffonts'和'pdfinfo'） - 只是为了收集更多关于问题根的数据点，所以我们可能会更好知道如何让它与Ghostscript一起工作 – 2010-09-02 15:04:02

Ghostscript不从PDF文件中提取所有文本

回答

相关问题