向Spark节点加载NOSQL数据



我试图理解当我从NoSQL源加载数据到Spark时会发生什么。ie。它会尝试将记录加载到驱动程序中,然后将其分发到工作节点,还是会同时将记录加载到所有工作节点?。基本上有任何方法来加载数据并行,如果是,如何确保相同的记录不是由一个以上的节点处理?如果不是并行进程,则将相同的json写入"。Json文件帮助?(假设每行为一条记录)

它总是直接加载到worker中。根据数据的来源和存储方式,可以并行加载数据。在加载数据时,数据将使用不重叠的行进行分片,因此您不必担心处理相同的数据两次。文件格式将是无关的。你从哪个数据源加载(mongo, cassandra, hbase)?如果你告诉我源系统,我可以给出一个更好的答案。

相关内容

  • 没有找到相关文章

最新更新