RDD和传统的关系数据库系统有什么区别



我是spark的新手,我了解SQL,但我想知道RDD(弹性分布式数据集(和关系数据库之间的区别,比如在体系结构级别和访问级别。非常感谢。

RDD(Resilient Distributed Dataset,弹性分布式数据集(是Spark使用的内存数据结构。它是不可变的数据结构。可以想象,spark在内存中加载了一个特定结构的数据,这个结构被称为RDD。一旦你的星火工作停止,就不存在RDD了。

另一方面,数据库是存储系统。您可以存储数据,稍后再进行查询。

我希望这能澄清。还有一件事——Spark可以从文件系统或数据库加载数据并创建RDD。文件系统和数据库是存储数据的两个地方。一旦数据通过火花加载到内存中。spark使用一个名为RDD的数据结构来存储和处理它。

最新更新