我正在阅读有关Spark优化的文章,我不清楚钨和像Kryo这样的序列化是如何协同工作的。
我正在阅读的来源中的一些笔记让我想到了这个问题:
-
"Tungsten的表示比使用Java甚至Kryo序列化器序列化的对象要小得多。 来源-霍顿工厂
-
"通过代码生成,我们可以提高序列化的吞吐量,进而增加随机网络吞吐量。 源数据砖
他们没有,不包括一些边界情况,如Encoders.kryo
。
钨使用自己的二进制存储格式和相应的serde工具(Encoders
(。这就是为什么它在标准操作模式下可以更快、更节省内存的原因。