如何知道发生了什么在Apache Spark的引擎盖(从代码)?



我想通过阅读apache spark github链接的代码文件来理解spark。

https://github.com/apache/spark

我有一些Scala的经验,但我的大部分经验都是在PySpark。我也了解Spark架构和各种优化技术,但我很好奇它们是如何在内部实现的。例如,当我调用repartition()方法时会发生什么。谁能从社区指导我,我应该怎么做。

使用IntelliJ IDEA打开Apache Spark的源代码。您可以将源代码作为maven或sbt项目打开(只需选择适当的构建配置)。

一旦以上操作完成,Cmd+Option+o找到你感兴趣的符号,例如repartition()。使用Cmd+b向下钻,直到你在最底部(呼叫链),然后向上(呼吸…不是休息!)冲洗并重复。