我正在评估Flink的一些数据处理批次。举个简单的例子,我有2000个点,我想使用scipy提供的功能通过FIR滤波器。scipy滤波器是一个简单的函数,它接受一组系数和要滤波的数据并返回数据。有可能在Flink中创建一个转换来处理这个问题吗?Flink变换似乎是在逐点的基础上应用的,但我可能遗漏了一些内容。
这当然是可能的。Flink已经有了您可能想要使用的Python API(测试版)。
关于你的第二个问题:Flink可以逐点应用一个函数,也可以做其他事情。这取决于你定义的是什么样的函数。例如,每个记录应用filter
、project
、map
、flatMap
;max
、min
、reduce
等被应用于一组记录(这些组是通过groupBy
定义的)。还可以使用join
、cross
或cogroup
连接来自不同数据集的数据。请查看文档中的可用转换列表:https://ci.apache.org/projects/flink/flink-docs-release-1.0/apis/batch/dataset_transformations.html