Apache Tika 服务器请求获取'main content'而不是'plain text'



我正在尝试使用Apache Tika: app &服务器,GUI和命令行。

使用Tika应用程序,我可以做一些像

    java -jar tika-app-1.7.jar --gui

并选择'View' -> 'Main content',或

    java -jar tika-app-1.7.jar --text-main http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html

我需要主要内容,但它似乎在服务器模式下,我只能得到纯文本。我正在检查这个指南。

    curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/meta
    curl -s "http://amzn.com/B005IWM8PU" | curl -X PUT -T - http://<server_ip>:9998/tika

也许,http://:9998/后面的东西会起作用?是否有办法在服务器模式下获得主要内容?

最后,请求必须在Ruby tika-server-1.3.jar中发出。目前看起来像这样:

    require "net/http"
    tika_prefix = URI('http://<server_ip>:9998/tika')
    url = 'http://www.cnn.com/2015/07/09/politics/russian-bombers-u-s-intercept-july-4/index.html'
    request = Net::HTTP::Put.new(tika_prefix.to_s)
    request.body = url
    request.content_type = 'text/html'
    http = Net::HTTP.start(tika_prefix.hostname, tika_prefix.port)
    http.request(request).body

这在今天是可能的。Tika 1.15现在实现了Tika -2343功能请求,它在服务器模式下增加了--text-main等量。

vaites/php-apache-tika是我使用的Tika的PHP绑定,并且我已经就此打开了一个问题,所以我们应该能够很快看到它被实现。

编辑:PHP绑定库现在支持这个特性

相关内容

最新更新