2016-02-27 105 views
-1

我们有一个pdf页面,其中包含一个或多个数字,这是实验结果的二维图。这些数字可能嵌入或不嵌入文本。每个图都有x和y轴,并在图中标出了标签和单位测量值。每张图内都有一个或多个地块,每个地块都有不同的颜色。从PDF提取图

我们如何将图表转换为相应的x和y值(比如说100点)?

我已经试过WebPlotDigitizer但它只有在输入是一个独立的情节图片时才有效。

我想我需要做的是从PDF中提取图并进一步处理。现在,我无法找到一个工具来做到这一点。我附上了一张sample PDF,其中的地块必须被提取出来。

请注意,PDF的最后一页中的2个图是图像,可以很容易地提取出来(我找到了几个软件)。其他图不是图像,软件无法提取他们。

是否有任何开源软件可以实现这一目标?

+0

你可以用'ImageMagick'将每个页面转换成PNG或TIFF文件,然后剪出图并显然将它们发送给WebPlotDigitiser,但我怀疑你不是那个意思,是吗? –

回答

1

您提供的PDF文件中的图形是用矢量图形制作的,所以提取它们的唯一方法是将PDF转换为图像(即渲染页面)。尝试ImageMagick's convert command line,看到这个answer

0

由于Photoshop非常好用脚本编写,实际上可以通过编程方式从PDF中提取图像(与页面相反;请参阅Photoshop JavaScript文档)。

然后你有整套仪器来调整图像,以便进一步处理(解释)更容易完成。