我有PDF文件,其中包含水平对齐,垂直对齐和反向对齐等四种不同方向的文本。使用PDFBox API从pdf中读取文本时,我获得了良好的水平对齐文本输出,但在其他情况下却没有。 例如,如果“斜体”单词水平对齐,则输出为“斜体”。如果它是垂直对齐的,那么输出在整个行上分割,如“ ”it a
li c“(这里”it“,”a“,”li“,”c“在不同的行中)。 我想知道是否有任何方法可以获得良好的输出,即使是垂直和反向对齐的文本。如何使用PDFBox API从PDF获取文本的方向
4
A
回答
2
相关问题
- 1. 使用pdfbox获取pdf文本的字体属性
- 2. 使用PDFBOX从PDF
- 3. 如何使用PDFBOX从PDF表单获取当前页码?
- 4. 如何使用pdfbox获取PDF表单文本字段的内容?
- 5. 使用PDFBox 2.0从PDF中提取文本
- 6. 使用PDFBox 2.0.2从PDF中提取文本缺失类PDFTextStripper()
- 7. 使用PDFBox获取文本颜色
- 8. 使用pdfbox从PDF中提取图像
- 9. 使用PDFBox v2从PDF中提取TIFF
- 10. 如何使用Java(不使用pdfbox)从pdf中提取图像
- 11. 如何使用PDFBox获取PDF表单中字段的类型
- 12. 如何使用CAM :: PDF在PDF页面中获取文本字符串的文本方向?
- 13. 如何从PDF页面获取文本?
- 14. PDF文本方向
- 15. 如何使用PdfBox创建pdf包?
- 16. 使用PDFBOX API创建一个新的PDF文档
- 17. 用于pdf创建的pdfbox:如何进行文本布局?
- 18. PDFBox:如何从TextPosition获取PDRectangle
- 19. PDFBox的0.7.3将PDF转换为文本
- 20. 从PDF文件中提取文本
- 21. 使用脚本从pdf文档获取文本
- 22. 使用PDFBox从Java编辑PDF
- 23. java使用pdfbox从msoffice到pdf
- 24. PDF如何获取文本的高度
- 25. 是否有一个C++库从PDF文件(如PDFBox for Java)中提取文本?
- 26. 从PDF文件中获取纯文本
- 27. 提取PDF文本
- 28. 如何使用PDFBOX PDF文件转换成PostScript文件2.0
- 29. 使用pdfbox创建阿拉伯语文本pdf文件
- 30. Api pdfbox-app-2.0.2我如何分割pdf文件?
很抱歉,您不会共享一个示例PDF。虽然有垂直书写的PDF字体,但我认为PDF中的字体不是那种类型。如果我的假设是正确的,那么“*垂直对齐*”文本实际上由横跨多行的正常水平对齐文本组成。因此,输出*分割为“它是一个 李c”*将是正确的。 – mkl
但是,如果我的假设是错误的,PDFBox仍然不会提取文本,因为它是在考虑水平文本的情况下实现的。但是,在这种情况下,你可能会相应地重写'org.apache.pdfbox.text.PDFTextStripper.writePage()'。 – mkl
您可以请分享您使用的代码,因为我面临类似的问题。 –