3
A
回答
0
我相信iText可以处理这个问题。
Rectangle2D bookmarkRect = getRectFromBookmark(someBookmarkThingy);
FilteredTextRenderListener filter =
new FilteredTextRenderListener(new LocationTextExtractionStrategy(),
new RegionTextRenderFilter(bookmarkRect));
String bookmarkText = PdfTextExtractor.getTextFromPage(reader, pageNum, filter);
someBookmarkThingy
可能会是有问题的书签的PdfDictionary。
警告书签实际上可以容纳任何操作。他们通常持有GoTo *行动的几种品种之一。
GoTo动作可以指定一个矩形,左上角&缩放系数,只是一个页面,以及其他几个变体。定义缩放设置的任何内容都将受到PDF在中显示的窗口大小的影响。这包括除了为新视图明确定义边界框之外的所有这些。您必须对一个典型的窗口大小进行有根据的猜测,并从那里进行转换。
您可能需要阅读PDF Specification,特别是第12.6.4.2节“转至操作”。哼。你真正需要的是关于目的地的部分,12.3.2。页面目的地可以正是如此定义:
- [PAGEREF/XYZ左顶部变焦]
- [PAGEREF /适合]
- [PAGEREF/FITH顶部]
- [PAGEREF/FITV左]
- [PAGEREF/FITR左右下角顶部]
- [PAGEREF/FITB]
- [PAGEREF/FitBH顶部]
- [PAGEREF/FitBV左]
玩得开心!
相关问题
- 1. 使用Java从PDF文件中提取大纲(或书签)
- 2. 从PDF中提取文本
- 3. 从PDF中提取标签
- 4. 提取PDF文本
- 5. pdf文本提取
- 6. 从PDF文件中提取文本
- 7. 从PDF文档中提取文本 - C#
- 8. 从pdf文件中提取文本
- 9. 从PDF文件中提取文本
- 10. 从pdf中删除书签
- 11. 从pdf中提取文本到c#
- 12. 从PDF中提取文本位置
- 13. 从PDF中裁剪和提取文本
- 14. 从PDF中提取文本内容
- 15. 从扫描的pdf文本提取
- 16. 用Poppler(C++)从PDF中提取文本
- 17. 如何从使用Smalot/PDFParser的PHP中的PDF文件中提取书签?
- 18. 使用PHP从PDF中签名提取
- 19. 从BeautifulSoup标签元素提取文本
- 20. 从HTML标签中提取文本
- 21. 如何以编程方式从PDF文件创建PDF书签?
- 22. 嵌套书签PDF
- 23. IText夏普从pdf提取文本与法文脚本MT
- 24. 如何使用PHP读取PDF书签?
- 25. 获取每个PDF页面的书签
- 26. 使用Apache PdfBox在两个书签之间提取文本
- 27. 使用PHP从PDF中提取注释和书签等元数据
- 28. 从导出的书签文件中提取数据
- 29. 使用JavaScript书签从图像链接中提取替代文本
- 30. 从PDF提取图
并且不要忘记页面底部不一定是Y = 0。它可能是200或-2000。你只需要检查页面的裁剪框(和旋转!)。 – 2011-03-24 00:04:30