Spark 序列化:钨和 Kryo 如何协同工作?



我正在阅读有关Spark优化的文章,我不清楚和像Kryo这样的序列化是如何协同工作的。

我正在阅读的来源中的一些笔记让我想到了这个问题:

  • "Tungsten的表示比使用Java甚至Kryo序列化器序列化的对象要小得多。 来源-霍顿工厂

  • "通过代码生成,我们可以提高序列化的吞吐量,进而增加随机网络吞吐量。 源数据砖

他们没有,不包括一些边界情况,如Encoders.kryo

钨使用自己的二进制存储格式和相应的serde工具(Encoders(。这就是为什么它在标准操作模式下可以更快、更节省内存的原因。

最新更新