2011-05-26 65 views
2

我是Rails的新手,但我正在开发一个Web应用程序,它需要从文本文件的大型数据库获取文本并在HTML中显示文本。这些文件位于.doc,.docx,.wps和.pages中,目前只是坐在硬盘上。在.wps和.pages中有足够多的文件,我可以手动将它们转换为.doc,但问题仍然存在:如何获取.doc或.docx文件中的文本,以便我可以保存它到一个SQLite数据库供以后使用?从Ruby on Rails中获取各种文档格式的文本

谢谢!

回答

4

看看Yomu。这是它充当Apache TIKA包装宝石,它支持多种文档格式,其中包括以下内容:

  • 的Microsoft Office OLE 2和Office Open XML格式(.DOC,.DOCX,.xls的,.XLSX ,.PPT,.PP​​TX)
  • OpenOffice.org的OpenDocument格式文件(.odt,.ods或的.odp)
  • 苹果的iWorks格式
  • 富文本格式(.rtf)
  • 可移植文档格式(.pdf )