我的本地MongoDB数据库中有大约2GB的数据,数据库中有一个集合。我想将所有这些数据从MongoDB数据库摄取到独立的H2o集群中,以构建机器学习模型。我正在使用python在H2o中进行数据分析。你能告诉我我该怎么做吗?
我从未使用 H2O,但假设它与 mongo 没有集成:
对我来说,看起来你应该编写一个脚本:
- 连接到蒙戈
- 运行查询并获取游标
- 遍历结果,将对象转换为 H2O 理解的形式,然后
- 放入 H2O(如果 H2O 支持批量插入,则最好分批(
一种可能的解决方案是使用 spark-mongodb 连接器将数据加载到 Spark 集群中,并将数据帧转换为 H2OFrame。 有关详细信息,请查看 http://docs.h2o.ai/sparkling-water/2.2/latest-stable/doc/tutorials/spark_h2o_conversions.html#converting-a-dataframe-into-an-h2oframe
之后使用苏打水分析数据。