2011-11-30 139 views
5
from pyPdf import PdfFileReader 
f = open('document.pdf', 'rb') 
p = PdfFileReader(f) 
o = p.getOutlines() 

List对象o包括字典的对象pyPdf.pdf.Destination(书签),其中有许多属性,但我找不到任何引用的页面数量书签如何获得书签的页面数

我怎样才能返回页数,比方说o[1]书签?


例如o[1].page.idnum大约比PDF文档中引用页码,我以为引用较小的一些对象,然后一页中的3次,作为整个PDF文档大纲运行.page.idnum回数返回数字的排列是甚至不是线性PDF文档中的“真实”的页面数量的目的地相关,它是由〜3


更新大约多:这个问题是一样的:split a pdf based on outline虽然我不明白他自做了什么作家在那里回答。似乎对我来说太复杂了

+0

见(https://stackoverflow.com/q/48157194/562769) –

回答

7

由于@theta指出“split a pdf based on outline”具有提取页码所需的代码。如果你觉得这很复杂,我复制了将页面ID映射到页码的代码的一部分,并将其作为一个函数。这里是打印书签的页面数量的问题o [0]工作的例子:

from pyPdf import PdfFileReader 
def _setup_page_id_to_num(pdf, pages=None, _result=None, _num_pages=None): 
    if _result is None: 
     _result = {} 
    if pages is None: 
     _num_pages = [] 
     pages = pdf.trailer["/Root"].getObject()["/Pages"].getObject() 
    t = pages["/Type"] 
    if t == "/Pages": 
     for page in pages["/Kids"]: 
      _result[page.idnum] = len(_num_pages) 
      _setup_page_id_to_num(pdf, page.getObject(), _result, _num_pages) 
    elif t == "/Page": 
     _num_pages.append(1) 
    return _result 
# main 
f = open('document.pdf','rb') 
p = PdfFileReader(f) 
# map page ids to page numbers 
pg_id_num_map = _setup_page_id_to_num(p) 
o = p.getOutlines() 
pg_num = pg_id_num_map[o[0].page.idnum] + 1 
print pg_num 

可能为时已晚,@theta但可能帮助别人:)顺便说一句我的计算器上的第一篇文章所以原谅我,如果我没有按照通常格式

为了进一步扩展这个: 如果你正在寻找让页面上的确切位置的书签,这将让你的工作更轻松:

from pyPdf import PdfFileReader 
import pyPdf 
def _setup_page_id_to_num(pdf, pages=None, _result=None, _num_pages=None): 
    if _result is None: 
     _result = {} 
    if pages is None: 
     _num_pages = [] 
     pages = pdf.trailer["/Root"].getObject()["/Pages"].getObject() 
    t = pages["/Type"] 
    if t == "/Pages": 
     for page in pages["/Kids"]: 
      _result[page.idnum] = len(_num_pages) 
      _setup_page_id_to_num(pdf, page.getObject(), _result, _num_pages) 
    elif t == "/Page": 
     _num_pages.append(1) 
    return _result 
def outlines_pg_zoom_info(outlines, pg_id_num_map, result=None): 
    if result is None: 
     result = dict() 
    if type(outlines) == list: 
     for outline in outlines: 
      result = outlines_pg_zoom_info(outline, pg_id_num_map, result) 
    elif type(outlines) == pyPdf.pdf.Destination: 
     title = outlines['/Title'] 
     result[title.split()[0]] = dict(title=outlines['/Title'], top=outlines['/Top'], \ 
     left=outlines['/Left'], page=(pg_id_num_map[outlines.page.idnum]+1)) 
    return result 

# main 
pdf_name = 'document.pdf' 
f = open(pdf_name,'rb') 
pdf = PdfFileReader(f) 
# map page ids to page numbers 
pg_id_num_map = _setup_page_id_to_num(pdf) 
outlines = pdf.getOutlines() 
bookmarks_info = outlines_pg_zoom_info(outlines, pg_id_num_map) 
print bookmarks_info 

注意:我的书签是章节号(例如:1.1简介),我将书签信息映射到章节号。如果您的书签是不同的修改这部分代码:[?我怎样才能提取与PyPDF2的TOC]

elif type(outlines) == pyPdf.pdf.Destination: 
     title = outlines['/Title'] 
     result[title.split()[0]] = dict(title=outlines['/Title'], top=outlines['/Top'], \ 
     left=outlines['/Left'], page=(pg_id_num_map[outlines.page.idnum]+1)) 
+0

永远不会太晚:)感谢我测试的脚本,并发现它按预期工作。 – theta

+0

没问题,我应该感谢你的链接到其他职位;)。我将解决方案扩展到了页面上提取书签的位置。 – vjayky

+0

'NumberObject'对象没有属性'idnum',任何我得到这个结果的原因?我正在使用你的第一个例子集,我得到的错误 “pg_num = pg_id_num_map [o [0] .page.idnum] + 1”我正在使用PyPDF2 –