我需要依赖哪一罐蒂卡？

我想用Tika来提取一些文件合成的文本，如.doc,.ppt等等。
目前我依赖于tika-app-1.2.jar，但我认为依靠这个jar不是一个好主意，因为这个jar是可运行的。此外，在解析.ppt文件它给了我此运行时异常：我需要依赖哪一罐蒂卡？

org.apache.tika.exception.TikaException: Unexpected RuntimeException from [email protected] 
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244) 
    at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242) 
    at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120) 
    ...

我深深一派这个问题，并发现这个问题是由apache-poi并嵌入tika-app引起的。

我的问题是，我必须依赖哪些罐子？

蒂卡
蒂卡核心
蒂卡束
蒂卡父母
蒂卡-应用

来源

2013-04-21 user2041057

http://tika.apache.org/1.3/gettingstarted.html

我想你想的蒂卡的解析器依赖。来自Tika网站。

如果你想使用提卡解析文件（而不是简单地检测文件类型等），你要依靠蒂卡的解析器代替：

<dependency> 
    <groupId>org.apache.tika</groupId> 
    <artifactId>tika-parsers</artifactId> 
    <version>1.3</version> 
</dependency>

作为一个方面说明，我绝不会试图直接从Maven中心获取依赖项，而无需先咨询该项目的文档。正如你在Tika中看到的那样打破依赖关系，IMO是新的标准方法，而不是提供一个单一的jar包，这样包括这些项目的人可以更好地控制谷物，当他们包含依赖项。

来源

2013-04-21 15:17:36 Jazzepi

谢谢，你的回答非常正确。 – user2041057 2013-04-27 13:32:39

@ user2041057很高兴能帮到你！ – Jazzepi 2013-04-27 15:34:43

我需要依赖哪一罐蒂卡？

回答

相关问题