如何获得书签的页面数

from pyPdf import PdfFileReader 
f = open('document.pdf', 'rb') 
p = PdfFileReader(f) 
o = p.getOutlines()

List对象o包括字典的对象pyPdf.pdf.Destination（书签），其中有许多属性，但我找不到任何引用的页面数量书签如何获得书签的页面数

我怎样才能返回页数，比方说o[1]书签？

例如o[1].page.idnum大约比PDF文档中引用页码，我以为引用较小的一些对象，然后一页中的3次，作为整个PDF文档大纲运行.page.idnum回数返回数字的排列是甚至不是线性PDF文档中的“真实”的页面数量的目的地相关，它是由〜3

更新大约多：这个问题是一样的：split a pdf based on outline虽然我不明白他自做了什么作家在那里回答。似乎对我来说太复杂了

来源

2011-11-30 theta

见（https://stackoverflow.com/q/48157194/562769） –

由于@theta指出“split a pdf based on outline”具有提取页码所需的代码。如果你觉得这很复杂，我复制了将页面ID映射到页码的代码的一部分，并将其作为一个函数。这里是打印书签的页面数量的问题o [0]工作的例子：

from pyPdf import PdfFileReader 
def _setup_page_id_to_num(pdf, pages=None, _result=None, _num_pages=None): 
    if _result is None: 
     _result = {} 
    if pages is None: 
     _num_pages = [] 
     pages = pdf.trailer["/Root"].getObject()["/Pages"].getObject() 
    t = pages["/Type"] 
    if t == "/Pages": 
     for page in pages["/Kids"]: 
      _result[page.idnum] = len(_num_pages) 
      _setup_page_id_to_num(pdf, page.getObject(), _result, _num_pages) 
    elif t == "/Page": 
     _num_pages.append(1) 
    return _result 
# main 
f = open('document.pdf','rb') 
p = PdfFileReader(f) 
# map page ids to page numbers 
pg_id_num_map = _setup_page_id_to_num(p) 
o = p.getOutlines() 
pg_num = pg_id_num_map[o[0].page.idnum] + 1 
print pg_num

可能为时已晚，@theta但可能帮助别人:)顺便说一句我的计算器上的第一篇文章所以原谅我，如果我没有按照通常格式

为了进一步扩展这个： 如果你正在寻找让页面上的确切位置的书签，这将让你的工作更轻松：

from pyPdf import PdfFileReader 
import pyPdf 
def _setup_page_id_to_num(pdf, pages=None, _result=None, _num_pages=None): 
    if _result is None: 
     _result = {} 
    if pages is None: 
     _num_pages = [] 
     pages = pdf.trailer["/Root"].getObject()["/Pages"].getObject() 
    t = pages["/Type"] 
    if t == "/Pages": 
     for page in pages["/Kids"]: 
      _result[page.idnum] = len(_num_pages) 
      _setup_page_id_to_num(pdf, page.getObject(), _result, _num_pages) 
    elif t == "/Page": 
     _num_pages.append(1) 
    return _result 
def outlines_pg_zoom_info(outlines, pg_id_num_map, result=None): 
    if result is None: 
     result = dict() 
    if type(outlines) == list: 
     for outline in outlines: 
      result = outlines_pg_zoom_info(outline, pg_id_num_map, result) 
    elif type(outlines) == pyPdf.pdf.Destination: 
     title = outlines['/Title'] 
     result[title.split()[0]] = dict(title=outlines['/Title'], top=outlines['/Top'], \ 
     left=outlines['/Left'], page=(pg_id_num_map[outlines.page.idnum]+1)) 
    return result 

# main 
pdf_name = 'document.pdf' 
f = open(pdf_name,'rb') 
pdf = PdfFileReader(f) 
# map page ids to page numbers 
pg_id_num_map = _setup_page_id_to_num(pdf) 
outlines = pdf.getOutlines() 
bookmarks_info = outlines_pg_zoom_info(outlines, pg_id_num_map) 
print bookmarks_info

注意：我的书签是章节号（例如：1.1简介），我将书签信息映射到章节号。如果您的书签是不同的修改这部分代码：[？我怎样才能提取与PyPDF2的TOC]

elif type(outlines) == pyPdf.pdf.Destination: 
     title = outlines['/Title'] 
     result[title.split()[0]] = dict(title=outlines['/Title'], top=outlines['/Top'], \ 
     left=outlines['/Left'], page=(pg_id_num_map[outlines.page.idnum]+1))

来源

2014-02-12 00:23:00 vjayky

永远不会太晚:)感谢我测试的脚本，并发现它按预期工作。 – theta

没问题，我应该感谢你的链接到其他职位;）。我将解决方案扩展到了页面上提取书签的位置。 – vjayky

'NumberObject'对象没有属性'idnum'，任何我得到这个结果的原因？我正在使用你的第一个例子集，我得到的错误 “pg_num = pg_id_num_map [o [0] .page.idnum] + 1”我正在使用PyPDF2 –

我不确定，但根据pyPdf.Destination的文档http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html#pyPdf.pdf.Destination.page-attribute，书签的页码只是Destination.page。

来源

2011-11-30 18:19:53

'。第'或者在我的例子中'o [1] .page'返回“pyPdf.generic.IndirectObject”，除了上面提到的属性'.idnum'之外，它不提供更多的返回值。 – theta

如何获得书签的页面数

回答

相关问题