如何在Apache Spark中实现递归算法



我有一个问题,我想在Spark中实现递归算法,并想看看是否有任何在Spark构建递归算法的建议,或者探索其他可能更适合的数据分析框架。

例如。该作业需要递归地列出目录结构/树,并处理节点,结合映射/减少模式将路径或文件组映射到派生数据中,递归地对这些派生数据进行分组/合并。

我试图以一种可以利用整个算法并行化的方式来实现这一点。构建一个在单个节点(例如spark master(上运行的解决方案是很简单的,但假设目录结构非常大,有O(Billion(叶节点。

对于在Spark或其他框架/数据处理技术中构建递归/迭代类型的数据管道,有什么建议吗?

对于Flink,我将考虑使用Stateful Functions API来处理此类用例。

最新更新