小贝子编程

如何知道发生了什么在Apache Spark的引擎盖(从代码)?

我想通过阅读apache spark github链接的代码文件来理解spark。

https://github.com/apache/spark

我有一些Scala的经验，但我的大部分经验都是在PySpark。我也了解Spark架构和各种优化技术，但我很好奇它们是如何在内部实现的。例如，当我调用repartition()方法时会发生什么。谁能从社区指导我，我应该怎么做。

使用IntelliJ IDEA打开Apache Spark的源代码。您可以将源代码作为maven或sbt项目打开(只需选择适当的构建配置)。

一旦以上操作完成，Cmd+Option+o找到你感兴趣的符号，例如repartition()。使用Cmd+b向下钻，直到你在最底部(呼叫链)，然后向上(呼吸…不是休息!)冲洗并重复。

相关内容