我正在尝试使用Apache Tika: app &服务器,GUI和命令行。
使用Tika应用程序,我可以做一些像
java -jar tika-app-1.7.jar --gui
并选择'View' -> 'Main content',或
java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html
我需要主要内容,但它似乎在服务器模式下,我只能得到纯文本。我正在检查这个指南。
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta
curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika
也许,http://:9998/后面的东西会起作用?是否有办法在服务器模式下获得主要内容?
最后,请求必须在Ruby tika-server-1.3.jar中发出。目前看起来像这样:
require "net/http"
tika_prefix = URI('http://<server_ip>:9998/tika')
url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html'
request = Net::HTTP::Put.new(tika_prefix.to_s)
request.body = url
request.content_type = 'text/html'
http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port)
http.request(request).body
这在今天是可能的。Tika 1.15现在实现了Tika -2343功能请求,它在服务器模式下增加了--text-main
等量。
vaites/php-apache-tika
是我使用的Tika的PHP绑定,并且我已经就此打开了一个问题,所以我们应该能够很快看到它被实现。
编辑:PHP绑定库现在支持这个特性