Apache Arrow Java API Documentation



我正在寻找Apache Arrow API的有用文档或示例。任何人都可以指出一些有用的资源吗?我只能找到一些博客和JAVA文档(这并没有说太多(。

从我读到的内容来看,它是一个标准的内存中列式数据库,用于快速分析。是否可以将数据加载到箭头内存并对其进行操作?

您应该使用 arrow 作为两个需要使用传递对象进行通信的应用程序之间的中间人。

Arrow 不是一个独立的软件,而是一个使用的组件。 加速特定系统内的分析并允许 启用 Arrow 的系统,以低开销交换数据。

例如,Arrow 提高了集群内数据移动的性能。

有关示例,请参阅测试。

  @Test
  public void test() throws Exception {
    BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
    File testInFile = testFolder.newFile("testIn.arrow");
    File testOutFile = testFolder.newFile("testOut.arrow");
    writeInput(testInFile, allocator);
    String[] args = {"-i", testInFile.getAbsolutePath(), "-o", testOutFile.getAbsolutePath()};
    int result = new FileRoundtrip(System.out, System.err).run(args);
    assertEquals(0, result);
    validateOutput(testOutFile, allocator);
}

Apache Parquet也使用它。以下是从/到箭头对象的转换示例:

MessageType parquet = converter.fromArrow(allTypesArrowSchema).getParquetSchema();
Schema arrow = converter.fromParquet(supportedTypesParquetSchema).getArrowSchema();

他们现在有一些关于如何在他们的网站上使用Apache Arrow的基本文档。虽然它可能需要一些填充。

最新更新