小贝子编程

向Spark节点加载NOSQL数据

本文关键字：NOSQL 数据加载节点 Spark json apache-spark apache-spark-sql
更新时间 : 2023-08-26
英文 : Loading NOSQL data into Spark nodes

我试图理解当我从NoSQL源加载数据到Spark时会发生什么。ie。它会尝试将记录加载到驱动程序中，然后将其分发到工作节点，还是会同时将记录加载到所有工作节点?。基本上有任何方法来加载数据并行，如果是，如何确保相同的记录不是由一个以上的节点处理?如果不是并行进程，则将相同的json写入"。Json文件帮助?(假设每行为一条记录)

它总是直接加载到worker中。根据数据的来源和存储方式，可以并行加载数据。在加载数据时，数据将使用不重叠的行进行分片，因此您不必担心处理相同的数据两次。文件格式将是无关的。你从哪个数据源加载(mongo, cassandra, hbase)?如果你告诉我源系统，我可以给出一个更好的答案。

向Spark节点加载NOSQL数据

相关内容

最新更新

热门标签：