我正在寻找一个优雅的解决方案来查找文档中的哪些页面上存在某个词,我已经存储在python词典/列表中。查找文档页面上的文字
我首先考虑.docx格式作为输入,并看看PythonDocx它有一个搜索功能,但显然没有真正的docx/xml格式的页面属性。 如果我解析文档,我可以在xml树中查找<w:br w:type="page"/>
,但不幸的是这些不会显示非强制分页符。
我甚至考虑过先将文件转换为PDF格式,然后使用类似PDFminer这样的文件来解析页面文档。
有没有简单的解决方案,以搜索字符串的.docx文档,并且返回页面它发生在像
[('foo' ,[1, 4, 7 ]), ('bar', [2]), ('baz', [2, 5, 8, 9)]
我认为这是你要找的东西: [link](http://stackoverflow.com/questions/12571905/finding-on-which-page-a-search-string-is-located-in -a-pdf-document-using-python) – Roxy
@birgit你还在寻找关于这个话题的解决方案吗? – mabe02
@ mabe02我还没有找到工作解决方案,但没有:/但会有兴趣 – birgit