2
我正在尝试Apache Tika:app &服务器,gui和命令行。Apache Tika服务器请求获取'主要内容'而不是'纯文本'
随着提卡的应用程序,我可以这样做
java -jar tika-app-1.7.jar --gui
,并选择“查看” - >“主要内容”,或
java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html
我需要的主要内容,但它似乎在服务器模式我只能得到纯文本。我正在检查this guide。
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika
也许,http://:9998 /之后会出现什么结果? 有没有办法在服务器模式下获取主要内容?
最后,请求必须在Ruby tika-server-1.3.jar中进行。到目前为止,看起来像这样:
require "net/http"
tika_prefix = URI('http://<server_ip>:9998/tika')
url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html'
request = Net::HTTP::Put.new(tika_prefix.to_s)
request.body = url
request.content_type = 'text/html'
http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port)
http.request(request).body
我想知道同样的事情,所以我发送了一封电子邮件给Tika邮件列表。如果有人回复,我会通知你。 –
你有没有找到一种方法在Tika-Server中获得'--text-main'? –