小贝子编程

如何在Apache Spark中实现递归算法

我有一个问题，我想在Spark中实现递归算法，并想看看是否有任何在Spark构建递归算法的建议，或者探索其他可能更适合的数据分析框架。

例如。该作业需要递归地列出目录结构/树，并处理节点，结合映射/减少模式将路径或文件组映射到派生数据中，递归地对这些派生数据进行分组/合并。

我试图以一种可以利用整个算法并行化的方式来实现这一点。构建一个在单个节点(例如spark master(上运行的解决方案是很简单的，但假设目录结构非常大，有O(Billion(叶节点。

对于在Spark或其他框架/数据处理技术中构建递归/迭代类型的数据管道，有什么建议吗？

对于Flink，我将考虑使用Stateful Functions API来处理此类用例。

相关内容