我使用PDF Clown库中的方法“Annotation.getBox”来获取文本中精彩部分的位置。通过这种方式还可以检索到螺栓或斜体文本的位置。这怎么可以避免?我想从真正的亮点中获得Retancle2D。从pdf文档的精彩部分获取位置,使用PDF Clown
回答
不幸的是,OP未能共享示例PDF。他也仅仅提供了一个非常小的代码片段。因此,下面只能推测...
由OP在评论中提供的代码片段看起来是这样的:
PageAnnotations annotations = page.getAnnotations();
for (Annotation annotation : annotations)
{
highlightArea = annotation.getBox();
}
因此,他把变量highlightArea
到最终的Box
值给定页面的注释元素。
可能的原因highlightArea
可能包含其他内容(在OP的情况下,有时会出现一些粗体或斜体文字)较突出显示的文本:
- 那场决赛注释可能不是高亮注释完全,但一些其他类型。
- 假设最终注释是突出显示注释,则其框中的所有内容都不会突出显示,而只会显示注释词典条目中的四边形或由注释的外观流定义的一些自定义区域。
对于后一种情况在PDF说明书胙部12.5.6.10 “文本标记集注”:
QuadPoints阵列(必需) 8×Ñ号码的一个数组,指定默认用户空间中的坐标为n四边形。每个四边形都应在注解背后的文本中包含一个或一组连续的单词。每个四边形的坐标须在该命令
XýXýXý 3给出xý
在逆时针顺序 (参见图64)指定所述四边形的四个顶点。该文本应相对于被定向到边缘 连接点(X ,ÿ )和(X ,ÿ )。
注释词典的AP项,如果存在的话,应优先 超过QuadPoints;请参阅表168和12.5.5,“外观流。”
小心,但是,作为指定的Adobe Reader不订购顶点,而且还为指定的不正确显示在顺序坐标亮点。赋予旧的但仍适用于当前Adobe Acrobat版本的计算器Q & A "PDF Spec vs Acrobat creation (QuadPoints)"。
如果您annotation
是TextMarkup
一个实例,您可以轻松使用TextMarkup
方法getMarkupBoxes
检索四边形。
此外,您可以使用Annotation
方法getAppearance
检索外观流。不过,确定外观流所突出显示的区域可能不是微不足道的。
谢谢你的回复。对不起,我无法在其他文件中重现问题。我想,这个问题实际上在我的pdf文件上。 – godani
- 1. 获取PDF文档大纲
- 2. 注解在pdf文档上的位置
- 3. 使用脚本从pdf文档获取文本
- 4. 从PDF中提取文本位置
- 5. iPhone:如何从文档中获取PDF文档的标题?
- 6. 提取PDF部分
- 7. 从PDF文档中提取文本 - C#
- 8. Google脚本获取PDF文档尺寸
- 9. 如何从PDF获取位置数据到文本
- 10. 从Java打印PDF文档时,部分文本旋转
- 11. LaTeX - 使用PDF文档添加可点击的链接到部分/子部分
- 12. 获取和设置itext pdf文档的元数据
- 13. 获取PDF文档中的文档向量计数?
- 14. 从Adobe Reader的ActiveX控件获取PDF文档的页码
- 15. PDF文档
- 16. 使用CLLocationManager获取精确的位置
- 17. PHP to PDF - 使用XML文档中的文本创建PDF?
- 18. 如何使用WebStart从Java显示和部署PDF文档
- 19. 从Java扫描的PDF文档中获取像素数据
- 20. 从整个文档获取.index()位置?
- 21. 将PDF文档(* .pdf)转储到文本?
- 22. 拆分PDF导致非常大的PDF文档PDFBox的2.0.2
- 23. 使用ReportLab(Python)的PDF文档中的PDF图像
- 24. 从PDF文件中获取纯文本
- 25. 获取部分文档
- 26. 如何使用webview从服务器读取PDF文档?
- 27. 使用SOAP和PHP获取PDF文件
- 28. 提取与路线的位置的所有文本从PDF
- 29. 如何从pdf文档获取字符偏移信息?
- 30. 如何从Doxygen获取单个PDF文档?
请分享一些关键代码,让我们了解您的工作。请链接到我们可以重现问题的PDF样本。 – mkl
PageAnnotations annotations = page.getAnnotations(); \t \t \t的(译注注解:注解){ \t \t \t \t highlightArea = annotation.getBox();} ......我得到页的注释在PDF格式,并采取有位置,但我得到有时也位置粗体或斜体文字。 对不起,我不能链接样本pdf,因为它是机密文件。 – godani
然后尝试找到允许重现问题的另一个非机密文件。如果你找不到,可能是你的pdf本身存在问题。 – mkl