有可能像数据库一样使用Spark吗



我是Spark的新手。从输入流中,我得到了一个数据帧,但我不明白数据帧是否像关系表。如何将输入流保存到我的分布式文件系统中?一个数据帧足以做到这一点吗?感谢

Spark是一个易失性存储器,即它将所有的都保存在内存中。在数据进入内存之前,您可以使用Spark API或SQL查询数据。所有数据都需要使用Spark作业重新加载。

对于持久性,您还可以将Spark数据帧保存为持久性磁盘上的镶木文件,并通过Spark或hive进行查询。

否。您不能将spark用作数据库。Spark是一个不受信任的处理引擎。您可以使用HDFS来存储数据帧。您还可以使用Hive、Hbase等来存储数据帧。

最新更新