我正在使用mongo-hadoop连接器将RDD写入MongoDB集合,如本例中所述
一切正常。结果将添加到集合中。
但是我想知道有没有办法在执行保存之前清理集合?我没有在 mongo-hadoop文档中找到任何提及,因此此类功能可能尚不可用。
然后我想问一些提示,有没有更好的方法可以初始化MongoClient并在Apache Spark作业中手动运行删除查询?
要清理任何数据库或集合,请使用该语言的普通MongoDB连接器。
假设您正在使用Spark和Scala。
您可以使用Casbah/Java MongoDB驱动程序并在执行此操作之前清除集合。
Hadoop 连接器用于批量读取和写入操作。