是否可以通过GET请求从PDF文档检索单个页面？

我需要将数字存储库迁移到新的平台，但无法访问旧的平台，因此我采取了通过网络检索对象的方法。是否可以通过GET请求从PDF文档检索单个页面？

某些对象包含其他对象。对于这种类型的大多数对象来说，识别/检索组件及其元数据是一个简单的过程。但对于某些PDF文件，似乎所引用的组件实际上是对单个文件内的单个页面的引用，而不是单独的页面。

例如，http://content.wwu.edu/cdm4/document.php?CISOROOT=/wfront&CISOPTR=2711给我一个4页的对象。 http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=print允许我检索整个文档。 http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711检索一个XML文档，告诉我组件页面的标识符，但是当我尝试卷曲它们时，我只得到零长度的文档。但是当涉及非PDF文档时使用相同的方法，我会得到实际的文件 - 这就是为什么我认为只有单个页面正在被检索。

如何检索单个页面，因为我必须将这些页面作为单个对象存储在新平台中？谢谢

底线是，它似乎这是唯一可能的，如果有服务器上的东西，将为您提取单个页面。

当我打开Wireshark的，我发现，在用户界面上的操作使用的语法调用调用服务器端PDF应用：

，其中2711是对象的名称和3是该文件的页面。进一步的实验表明，我可以为任何可以识别的PDF提取任何页面。

对于有类似问题的其他人，wireshark是你的朋友。

2011-10-12 15:31:09

回答