2016-09-29 86 views
1

我需要将PDF文件转换为文本以使用Perl提取信息。但是我没有以位置格式获取文本文件,这意味着PDF和文本中元素的位置应该相同。我试过CAM::PDF::PageText,但输出是非常不同的。如何从PDF获取位置数据到文本

我遇到过涉及pdftotext和Poppler的文章,但我无法在Windows 10 64位系统中设置这些文章。

请让我知道是否有任何其他方法来解决这个问题。

+0

http://stackoverflow.com/questions/6104045/installing-poppler-on-cygwin – xxfelixxx

+0

你有没有考虑将文本从Acrobat复制粘贴到文本编辑器中? – Borodin

+0

我能够复制粘贴数据,但格式与PDF不相似,因为我将需要稍后从文本文件中提取信息。 – Mohit

回答

0

对不起,但最后我得到了一个解决方案,这是由Xpdf pdftotext和最好的方法是下载预先编译的二进制文件(.exe)文件。然后使用条命令行invaocation我们可以使用各种工具,如pdftohtml,pdftotext等

看看这个页面

http://www.foolabs.com/xpdf/download.html

,并在标题“预编译的二进制文件”下,你可以发现。

在命令提示符下您需要更改目录到二元存在,则调用该二进制与文件作为参数的地方

Exapmle: pdftotext File1.pdf 

上面的命令会给FILE1.TXT在同一个文件夹中的二进制存在。

1

What you really wantpdftohtml-xml输出。你可以build it on Windows

有2种方式在Windows上编译poppler的:

  • 使用在cygwin下
  • 使用本地的Visual Studio(MSVC)生成文件

MinGW的编译器本文档介绍了第二种方法。 ...

您可以下载Visual Studio Community Edition遵守许可证条款得到2013年和2015年版本的编译器,并与IDE一起构建工具。

或者,您可以获取Visual C++ build tools。另见Walkthrough: Compiling a Native C++ Program on the Command Line

相关问题