如何阅读谷歌驱动器文档内容与内容类型的应用程序/msword和应用程序/pdf等



我可以从内容类型为text/plain的文件中获取内容,但不能从内容类型为application/mswordapplication/pdf的文件中获取内容。

是否有办法获得内容并正确阅读?以下是内容类型的代码:text/plain

HttpResponse resp = service.getRequestFactory()
                  .buildGetRequest(new GenericUrl(file.getDownloadUrl())).execute();
BufferedReader output = new BufferedReader(new InputStreamReader(resp.getContent()));
System.out.println("Shorten Response: ");
for (String line = output.readLine(); line != null; line = output.readLine()) {
    System.out.println(line);
}

我使用了一个解析器,在我的例子中它是有效的。请检查代码片段:-

            HttpResponse resp = service.getRequestFactory().
            buildGetRequest(new GenericUrl(file.getDownloadUrl())).execute();
            Detector detector = new DefaultDetector();
            Parser parser = new AutoDetectParser(detector);
            Metadata metadata = new Metadata();
            InputStream input = TikaInputStream.get(resp.getContent());
            ContentHandler handler2 = new BodyContentHandler(
                    Integer.MAX_VALUE);
            parser.parse(input, handler2, metadata, new ParseContext());
            String text = handler2.toString();

我使用了tika-app-1.3.jar。它的工作与。pdf, .doc .docx, .text等文件。谢谢大家的回复。

我相信PDF和MSWORD格式都是二进制流,因此不能逐行读取。尝试将它们读入byte[]缓冲区。

com.google.api.services.drive.Drive svc;
InputStream is = svc.getRequestFactory()
.buildGetRequest(new GenericUrl("xxx")).execute().getContent();
public byte[] strm2Bytes(InputStream is) {
    ByteArrayOutputStream byteBuffer = new ByteArrayOutputStream();
    byte[] buffer = new byte[2048];
    BufferedInputStream bufIS = null;
    if (is != null) try {
      bufIS = new BufferedInputStream(is);
      int cnt = 0;
      while ((cnt = bufIS.read(buffer)) >= 0) {
        byteBuffer.write(buffer, 0, cnt);
      }
    } catch (Exception e) {}
    finally { try { if (bufIS != null) bufIS.close(); } catch (IOException e) {}} 
    return byteBuffer.toByteArray();
  }

但是你会得到一个原始文件字节,我真的不知道你想用它做什么。转换?显示器吗?通常,这些字节缓冲区可以交给'解码器' (word阅读器,pdf阅读器,jpeg解码器,....)。但是,这些读取器/解码器通常直接接受InputStream,因此不需要对它们进行字节缓冲。

相关内容

  • 没有找到相关文章

最新更新