在 Apache Spark 作业中使用 mongo-hadoop 连接器写入结果之前清理 MongoDB 集合



我正在使用mongo-hadoop连接器将RDD写入MongoDB集合,如本例中所述

一切正常。结果将添加到集合中。

但是我想知道有没有办法在执行保存之前清理集合?我没有在 mongo-hadoop文档中找到任何提及,因此此类功能可能尚不可用。

然后我想问一些提示,有没有更好的方法可以初始化MongoClient并在Apache Spark作业中手动运行删除查询?

要清理任何数据库或集合,请使用该语言的普通MongoDB连接器。

假设您正在使用Spark和Scala。

您可以使用Casbah/Java MongoDB驱动程序并在执行此操作之前清除集合。

Hadoop 连接器用于批量读取和写入操作。

最新更新