2012-03-02 80 views
0

也许这应该是独立的问题,每一个格式,但...PDF,PPT,DOC等为TEXT

什么是最可靠的(任何语言),二进制(对于任何平台),或web服务(免费或不免费),用于转换多样“含有文本的”格式转换成明文

可靠,我的意思是近100%的能力提取所有的人类可读文本而不提取“代码”或“标记”。

通过包含文本的格式,我的意思是:所有像PDF,PPT,DOC,DOCX,RTF,HTML, “.PAGES”, “.KEYNOTE”,ODT,等等等等,最普遍的

请建议支持这些格式的许多以及那些只有支持一个的包/服务。此外,有没有软件“堆栈”,“绑在一起”许多包/服务的目的转换为文本?

回答

0

http://www.filebuzz.com/files/Ascii_Convert/1.html < - 此链接将带您到转换器的列表,它可以将PDF和其他类型的文件转换为ASCII格式(纯文本)。 对于Word文档,您可以在没有软件的情况下执行此操作。例如,对于Word文档,当您单击“另存为”时,将打开一个对话框,该对话框将具有“另存为类型”下拉列表。选择“纯文本* .txt”,它将以纯文本保存文件。祝你好运!

0

如果您使用的是Ruby,请查看Yomu。它是Apache TIKA的包装,并支持多种文档格式,其中包括以下内容:

  • 的Microsoft Office OLE 2和Office Open XML格式(.DOC,.DOCX,.xls的,.XLSX,.PPT,.PP​​TX )
  • OpenOffice.org的OpenDocument格式文件(.odt,.ods或的.odp)
  • 苹果的iWorks格式
  • 富文本格式(.rtf)
  • 可移植文档格式(.pdf)
0

您可以尝试Extract Text

从描述:“从文档中抽取,如PDF和Word文件中的文字将保存所提取的文本文件中的工程与.PDF,.DOC,.DOCX,.xls的,.XLSX,.PPT , 还有很多。”需要Microsoft.NET Framework 4.0。

相关问题