Apache Flink:如何创建并行的JDBC输入格式

>有一个名为flink-jdbc的模块，它只支持基于非并行元组类型的JDBC InputFormat。

为了使用并行InputFormat进行JDBC，似乎需要通过实现接口进行自定义：org.apache.flink.core.io.InputSplit 。

那么就我而言，如何自定义实现JdbcInputSplit以从数据库并行查询数据？

Apache Flink 不提供并行 JDBC InputFormat。所以你需要自己实现一个。您可以使用非并行 JDBC 输入格式作为起点。

为了并行查询数据库，您需要将查询拆分为多个查询，这些查询涵盖结果集的非重叠（理想情况下大小相等）部分。这些较小的查询中的每一个都将包装在 InputSplit 中，并传递给输入格式的并行实例。

拆分查询是具有挑战性的部分，因为它取决于查询和数据。所以你需要一些元信息来想出好的拆分。您可能希望将其委托给输入格式的用户，并请求一组查询而不是单个查询。还应检查查询的数据库是否比单个查询更好地处理并行请求。

相关内容