2010-09-01 194 views
1

我使用ghostscript 8.71从PDF页面提取文本。Ghostscript不从PDF文件中提取所有文本

我使用的命令是:

gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \ 
     -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \ 
     -dLastPage=1 input.pdf -dQUIET 

,我使用<stdout>指导文本到另一个文件。

但问题是一些可搜索的文本项目不是由Ghostscript提取的。

某些字体文本未被提取,例如:粗体字的Verdana。但Ghostscript正在打开字体文件。

我可以上传PDF文件,但在这里我没有找到任何上传选项。如果有任何选项可用,请告诉我。

回答

0

您是否还尝试了其他命令行工具来提取文本,如pdftotext from the XPDF package?这些如何比较?

您能否提供更多关于输出中缺少什么的细节?只是某些类型的字符,只是某些字体,只是某些页面?此外,您正在将Linux/Unix语法("gs")与Windows语法("c:\fonts")混合使用。在Windows系统中,其中的字体通常被托管的默认位置是C:\的Windows \字体 ...

哦,是的:有你的问题的PDF文件看肯定会有所帮助。

+0

感谢您的回答。 我只需要使用GhostScript进行文本提取。我已将c:\ windows \ fonts中的所有字体复制到c:\ fonts,其中还包含ghost脚本type1字体。 – anil 2010-09-02 12:50:56

+0

告诉我任何选项来上传我的PDF文件。 等待您的回复。 – anil 2010-09-02 12:52:08

+0

互联网上有免费上传服务,只是谷歌为他们。 此外,你应该*仍然至少从我命名的同一个包中尝试'pdftotext'(以及'pdffonts'和'pdfinfo') - 只是为了收集更多关于问题根的数据点,所以我们可能会更好知道如何让它与Ghostscript一起工作 – 2010-09-02 15:04:02