我们如何将数据从MongoDB摄取到H2o集群?



我的本地MongoDB数据库中有大约2GB的数据,数据库中有一个集合。我想将所有这些数据从MongoDB数据库摄取到独立的H2o集群中,以构建机器学习模型。我正在使用python在H2o中进行数据分析。你能告诉我我该怎么做吗?

我从未使用 H2O,但假设它与 mongo 没有集成:

对我来说,看起来你应该编写一个脚本:

  1. 连接到蒙戈
  2. 运行查询并获取游标
  3. 遍历结果,将对象转换为 H2O 理解的形式,然后
  4. 放入 H2O(如果 H2O 支持批量插入,则最好分批(

一种可能的解决方案是使用 spark-mongodb 连接器将数据加载到 Spark 集群中,并将数据帧转换为 H2OFrame。 有关详细信息,请查看 http://docs.h2o.ai/sparkling-water/2.2/latest-stable/doc/tutorials/spark_h2o_conversions.html#converting-a-dataframe-into-an-h2oframe

之后使用苏打水分析数据。

相关内容

  • 没有找到相关文章

最新更新