1
我使用ghostscript 8.71从PDF页面提取文本。Ghostscript不从PDF文件中提取所有文本
我使用的命令是:
gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
-dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \
-dLastPage=1 input.pdf -dQUIET
,我使用<stdout>
指导文本到另一个文件。
但问题是一些可搜索的文本项目不是由Ghostscript提取的。
某些字体文本未被提取,例如:粗体字的Verdana。但Ghostscript正在打开字体文件。
我可以上传PDF文件,但在这里我没有找到任何上传选项。如果有任何选项可用,请告诉我。
感谢您的回答。 我只需要使用GhostScript进行文本提取。我已将c:\ windows \ fonts中的所有字体复制到c:\ fonts,其中还包含ghost脚本type1字体。 – anil 2010-09-02 12:50:56
告诉我任何选项来上传我的PDF文件。 等待您的回复。 – anil 2010-09-02 12:52:08
互联网上有免费上传服务,只是谷歌为他们。 此外,你应该*仍然至少从我命名的同一个包中尝试'pdftotext'(以及'pdffonts'和'pdfinfo') - 只是为了收集更多关于问题根的数据点,所以我们可能会更好知道如何让它与Ghostscript一起工作 – 2010-09-02 15:04:02