Scala dataframe - 在 github 上爆炸的 spark/scala 数据帧源代码在哪里



正如本文所解释的,Explode 在 scala 2.11.8 和 Spark 2.0.2 中很慢。 如果不迁移到更高的 Spark 版本,改进它的替代方法也很慢。 由于该问题已在更高版本的 Spark 中修复,因此一种方法是复制固定的源代码。在寻找源代码时,我发现了一个在函数中爆炸的引用,但是,我不知道如何进一步跟踪函数。 我将如何在新的 Spark 源代码中找到工作 Explode 的源代码 - 这样,我就可以使用它而不是当前版本的 explode?

https://github.com/apache/spark/blob/master/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/generators.scala 是我认为您正在寻找的链接

在看到爆炸功能刚刚def explode(e: Column): Column = withExpr { Explode(e.expr) } 后,我能够通过在 https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/functions.scala 内扩展所有import org.apache._进口来找到它

如果您想导入底层的 Explode 函数,我相信直接导入会import org.apache.spark.sql.catalyst.expressions.Explode

最新更新