2009-01-09 105 views
1

我怎样才能提取该流的一部分(一个名为BLABLABLA)从包含它的PDF文件?从PDF中提取蟒流

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>> 

或者,在其他的世界里,我怎样才能从pdf流中提取一个子键?

我想用一些Python的库(如pyPdf或ReportLab的),但即使是一些C/C++的lib应该很适合我。

任何人都可以帮助我吗?

回答

1

IIUC,在PDF流仅仅是一个二进制数据序列。我想你想要提取一个对象的一部分。你想要一个标准的对象,如图像或文字?如果有真实的例子,给你示例代码会容易得多。

这可能会帮助你开始:

import pyPdf 
pdf = pyPdf.PdfFileReader(open("pdffile.pdf")) 
list(pdf.pages) # Process all the objects. 
print pdf.resolvedObjects 
3

谷歌代码有一个名为pdf miner蟒文本提取工具。我不知道它是否会做你想要的,但它可能值得一看。