2013-04-21 77 views
0

我想用Tika来提取一些文件合成的文本,如.doc,.ppt等等。
目前我依赖于tika-app-1.2.jar,但我认为依靠这个jar不是一个好主意,因为这个jar是可运行的。此外,在解析.ppt文件它给了我此运行时异常:我需要依赖哪一罐蒂卡?

org.apache.tika.exception.TikaException: Unexpected RuntimeException from [email protected] 
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244) 
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242) 
    at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120) 
    ... 

我深深一派这个问题,并发现这个问题是由apache-poi并嵌入tika-app引起的。

我的问题是,我必须依赖哪些罐子?

  • 蒂卡
  • 蒂卡核心
  • 蒂卡束
  • 蒂卡父母
  • 蒂卡-应用

回答

3

http://tika.apache.org/1.3/gettingstarted.html

我想你想的蒂卡的解析器依赖。来自Tika网站。

如果你想使用提卡解析文件(而不是简单地 检测文件类型等),你要依靠蒂卡的解析器 代替:

<dependency> 
    <groupId>org.apache.tika</groupId> 
    <artifactId>tika-parsers</artifactId> 
    <version>1.3</version> 
</dependency> 

作为一个方面说明,我绝不会试图直接从Maven中心获取依赖项,而无需先咨询该项目的文档。正如你在Tika中看到的那样打破依赖关系,IMO是新的标准方法,而不是提供一个单一的jar包,这样包括这些项目的人可以更好地控制谷物,当他们包含依赖项。

+0

谢谢,你的回答非常正确。 – user2041057 2013-04-27 13:32:39

+0

@ user2041057很高兴能帮到你! – Jazzepi 2013-04-27 15:34:43