2015-07-10 73 views
2

我正在尝试Apache Tika:app &服务器,gui和命令行。Apache Tika服务器请求获取'主要内容'而不是'纯文本'

随着提卡的应用程序,我可以这样做

java -jar tika-app-1.7.jar --gui 

,并选择“查看” - >“主要内容”,或

java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html 

我需要的主要内容,但它似乎在服务器模式我只能得到纯文本。我正在检查this guide

curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta 
    curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika 

也许,http://:9998 /之后会出现什么结果? 有没有办法在服务器模式下获取主要内容?

最后,请求必须在Ruby tika-server-1.3.jar中进行。到目前为止,看起来像这样:

require "net/http" 

    tika_prefix = URI('http://<server_ip>:9998/tika') 
    url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html' 
    request = Net::HTTP::Put.new(tika_prefix.to_s) 
    request.body = url 
    request.content_type = 'text/html' 
    http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port) 
    http.request(request).body 
+0

我想知道同样的事情,所以我发送了一封电子邮件给Tika邮件列表。如果有人回复,我会通知你。 –

+0

你有没有找到一种方法在Tika-Server中获得'--text-main'? –

回答

2

这是今天可能的。现在Tika 1.15实现了TIKA-2343功能请求,该功能请求在服务器模式下添加了相当于--text-main的等效功能。

vaites/php-apache-tika是我使用的Tika的PHP绑定,我已经打开an issue,所以我们应该能够看到它即将实施。

编辑:PHP绑定库现在支持此功能。

相关问题