从PDF提取图

-1

我们有一个pdf页面，其中包含一个或多个数字，这是实验结果的二维图。这些数字可能嵌入或不嵌入文本。每个图都有x和y轴，并在图中标出了标签和单位测量值。每张图内都有一个或多个地块，每个地块都有不同的颜色。从PDF提取图

我们如何将图表转换为相应的x和y值（比如说100点）？

我已经试过WebPlotDigitizer但它只有在输入是一个独立的情节图片时才有效。

我想我需要做的是从PDF中提取图并进一步处理。现在，我无法找到一个工具来做到这一点。我附上了一张sample PDF，其中的地块必须被提取出来。

请注意，PDF的最后一页中的2个图是图像，可以很容易地提取出来（我找到了几个软件）。其他图不是图像，软件无法提取他们。

是否有任何开源软件可以实现这一目标？

2016-02-27 humblenoob

你可以用'ImageMagick'将每个页面转换成PNG或TIFF文件，然后剪出图并显然将它们发送给WebPlotDigitiser，但我怀疑你不是那个意思，是吗？ –

您提供的PDF文件中的图形是用矢量图形制作的，所以提取它们的唯一方法是将PDF转换为图像（即渲染页面）。尝试ImageMagick's convert command line，看到这个answer

2016-03-02 17:34:29

由于Photoshop非常好用脚本编写，实际上可以通过编程方式从PDF中提取图像（与页面相反;请参阅Photoshop JavaScript文档）。

然后你有整套仪器来调整图像，以便进一步处理（解释）更容易完成。

2016-02-27 22:14:27

回答