如何从Objective-C的PDF页面获取文本?如何从PDF页面获取文本?
2
A
回答
2
这是用于iOS或OS X的吗?如果对于OS X,您可以简单地创建一个Automator工作流程来提取文本,并从您的应用程序调用该工作流程。 Automator具有PDF操作“Extract PDF Text”就是为了这个目的。 Automator framework允许从你的应用程序调用automator动作。还有一些示例代码可以在http://rogueamoeba.com/utm/2005/06/03/找到(请注意,实际代码已经更新以使用Automator框架)。
4
首先 - 放弃任何用于解析PDF的“快速&脏”解决方案 - 它会失败。我的同事花了很多时间在iOS上正确地解决这个问题。他的前3名(质量,降序)选项:
- muPDF(http://www.mupdf.com/)伟大的图书馆 - 它会做提取罚款。它在GPL下获得许可,但这对于我们的专有应用来说是一个阻碍。
- 基于CGPDFScanner的自制解决方案。你可以找到如何做到这一点的简短说明here。这种方法的主要问题是SDK本身 - 苹果公司的PDF API非常严格(并且故意怀疑)是有限的。例如,您必须在2D空间中放置提取的文本块,因为PDF不能保证绘图的顺序与文本流相匹配,并且iOS SDK在这里没有什么帮助。
- Poppler(http://poppler.freedesktop.org/)是可以的,但对于文本提取,它大致等同于第二个选项(具有大量额外的依赖关系)。
可以有更多的选项与Mac OS X,但我不知道他们。
+1
muPDF仅用于查看。 – Jamil 2016-03-21 10:52:40
相关问题
- 1. jQuery:如何从页面获取文本?
- 2. 如何从pdf页面使用Zend_Pdf提取文本
- 3. 如何从html页面获得pdf
- 4. 从SWF Offer中获取PDF页面Avis
- 5. 从html页面获取文本shell
- 6. 如何从html页面提取文本?
- 7. 从PDF文件中获取纯文本
- 8. 如何使用CAM :: PDF在PDF页面中获取文本字符串的文本方向?
- 9. 如何获取pdf文档中的页面坐标onclick
- 10. PDF如何获取文本的高度
- 11. 如何从iOS上的pdf文件中提取给定页面?
- 12. 蟒蛇 - 从PDF页面明智提取文本列出
- 13. 如何从pdf文件获取highligted word?
- 14. iphone从pdf页面创建PDF文件
- 15. 从PDF页面获取文本时出现iTextSharp异常“堆栈为空”
- 16. 如何使用selenium IDE和python获取pdf页面(链接)中的所有页面文本
- 17. 如何从此页面获取链接?
- 18. 如何从html页面获取xPath(WebView)
- 19. CPropertySheet:如何从OnDrawItem获取子页面
- 20. 如何从App获取WebPartManager页面?
- 21. 如何从Facebook获取页面ID Iframe
- 22. 如何从XUL获取内容页面?
- 23. 如何从PAMIE获取页面内容?
- 24. 如何从pdf中获取某种颜色的文本c#
- 25. 如何从PDF获取文本的字体名称?
- 26. 如何从Swift中的PDF中获取所有文本?
- 27. 如何从PDF获取位置数据到文本
- 28. 如何使用PDFBox API从PDF获取文本的方向
- 29. 获取包含图像的PDF页面
- 30. 使用PHP获取单个PDF页面
重复的问题。请参阅http://stackoverflow.com/questions/3287635/how-to-parse-pdf-in-objective-c-for-ipad – Avi 2012-02-24 08:36:17
那么答案在哪里呢? – demon9733 2012-02-24 08:38:15
@Avram这个问题与从PDF提取文本无关 – hoha 2012-02-24 08:39:27