我是Rails的新手,但我正在开发一个Web应用程序,它需要从文本文件的大型数据库获取文本并在HTML中显示文本。这些文件位于.doc,.docx,.wps和.pages中,目前只是坐在硬盘上。在.wps和.pages中有足够多的文件,我可以手动将它们转换为.doc,但问题仍然存在:如何获取.doc或.docx文件中的文本,以便我可以保存它到一个SQLite数据库供以后使用?从Ruby on Rails中获取各种文档格式的文本
谢谢!
我是Rails的新手,但我正在开发一个Web应用程序,它需要从文本文件的大型数据库获取文本并在HTML中显示文本。这些文件位于.doc,.docx,.wps和.pages中,目前只是坐在硬盘上。在.wps和.pages中有足够多的文件,我可以手动将它们转换为.doc,但问题仍然存在:如何获取.doc或.docx文件中的文本,以便我可以保存它到一个SQLite数据库供以后使用?从Ruby on Rails中获取各种文档格式的文本
谢谢!
这是一个漫长迂回的方式,但开放式办公室可以将文件转换,并有编程的方式做到这一点:http://railstech.com/2010/08/convert-open-office-document-to-another-open-office-format/
这可能还没有到最好的办法,但也许这将油脂车轮一点。
看看Yomu。这是它充当Apache TIKA包装宝石,它支持多种文档格式,其中包括以下内容: