2011-01-22 72 views
3

中的词出现的Java库可以请任何人推荐适合此作业的库吗?在各种文档计数出现的词语是我必须做的,还是它似乎我必须使用库就像唯一的工作:用于计算PDF,MS Office/OpenOffice .doc,.odt,.xsl,.ppt

PDF

pdfbox

itextpdf

MS办公室

apache poi - 不确定是否支持2008+ MS关闭冰文件和OpenOffice文件?

OpenOffice的

odftoolkit

jopendocument

能否请您分享您的经验,建议选择和警惕,我可能跨越来的问题?

回答

2

alt text

阿帕奇提卡™是 检测和提取的元数据和从使用现有的解析器 库各种 文档 结构化文本内容的工具包。

Supported Document Formats

  • 超文本标记语言
  • XML和导出格式
  • 微软Office文档格式
  • OpenDocument格式
  • 可移植文档格式
  • 电子出版物格式
  • RTF格式
  • 压缩和包装形式
  • 文本格式
  • 音频格式
  • 图像格式
  • 视频格式
  • Java类文件和档案
  • 以MBOX格式

使用Tika AutoD etectParser,您可以轻松解析给定的文档并提取文本内容以计算单词。

我已经将它用于各种文件类型,它的性能很好。

如果任何现有的解析器不能满足您的需求,那么扩展/定制解析器或集成您自己的解析器相当容易。

+0

我不敢相信它不会发生在我身上,我已经在一两年前甚至使用它了,现在我已经在我的maven pom定义中拥有了所有这些库,并且正在学习如何使用它们: - )谢谢你Mads – lisak 2011-01-22 03:00:41