小贝子编程

在 Apache Spark 作业中使用 mongo-hadoop 连接器写入结果之前清理 MongoDB 集合

本文关键字：结果集合 MongoDB 连接器作业 Spark Apache mongo-hadoop java mongodb apache-spark
更新时间 : 2023-09-05
英文 : Clean up MongoDB collection before writing results with mongo-hadoop connector in Apache Spark job

我正在使用mongo-hadoop连接器将RDD写入MongoDB集合，如本例中所述

一切正常。结果将添加到集合中。

但是我想知道有没有办法在执行保存之前清理集合？我没有在 mongo-hadoop文档中找到任何提及，因此此类功能可能尚不可用。

然后我想问一些提示，有没有更好的方法可以初始化MongoClient并在Apache Spark作业中手动运行删除查询？

要清理任何数据库或集合，请使用该语言的普通MongoDB连接器。

假设您正在使用Spark和Scala。

您可以使用Casbah/Java MongoDB驱动程序并在执行此操作之前清除集合。

Hadoop 连接器用于批量读取和写入操作。

相关内容