Flink 跨多个主机读取 CSV



我有一个像 https://ci.apache.org/projects/flink/flink-docs-release-1.2/setup/cluster_setup.html 这样的集群,在哪个工作线程中,我有多个 CSV 对应于每个主机的分片。 我想使用表 API 计算跨多个主机的 CSV 列的总和。 每个工作人员都应该能够计算他拥有的 CSV 的总和,并在主服务器上返回结果。 是否有可能,如果是我应该实施的。

如果我正确理解您的问题,您想阅读 CSV 文件并汇总一些字段。这是一个相当简单的查询,对 Flink 来说不是问题。

使用最新的 Flink 版本 (1.4.2(,您可以将CsvTableSource注册为表并运行类似SELECT sum(a), sum(b) FROM yourTable的查询。

请注意,CSV 文件应存储在可从所有计算机(分布式文件系统、NFS 等(访问的文件系统中。

相关内容

  • 没有找到相关文章

最新更新