也许这应该是独立的问题,每一个格式,但...PDF,PPT,DOC等为TEXT
什么是最可靠的库(任何语言),二进制(对于任何平台),或web服务(免费或不免费),用于转换多样“含有文本的”格式转换成明文?
可靠,我的意思是近100%的能力提取所有的人类可读文本而不提取“代码”或“标记”。
通过包含文本的格式,我的意思是:所有像PDF,PPT,DOC,DOCX,RTF,HTML, “.PAGES”, “.KEYNOTE”,ODT,等等等等,最普遍的
请建议支持这些格式的许多以及那些只有支持一个的包/服务。此外,有没有软件“堆栈”,“绑在一起”许多包/服务的目的转换为文本?