我有两台计算机要连接到一个H2O集群。一个有4个核心,另一个有6个。当我运行时
h2o.init(ip = '10.0.0.89', port = 54321)
在第一台计算机上,我得到以下输出:
H2O cluster uptime: 1 minutes 56 seconds 846 milliseconds
H2O cluster version: 3.8.2.3
H2O cluster name: H2O_started_from_python_samerens_dii030
H2O cluster total nodes: 1
H2O cluster total free memory: 3.4 GB
H2O cluster total cores: 4
H2O cluster allowed cores: 4
H2O cluster healthy: True
H2O Connection ip: 10.0.0.89
H2O Connection port: 54321
H2O Connection proxy: None
Python Version: 3.7.4
当我在第二台计算机上运行相同的命令时,我会得到相同的输出(当然除了正常运行时间(。难道总的节点不应该增加到2个,总的核心应该增加到10个吗?你做错什么了吗?
您目前正在做的是在一台机器上启动H2O集群,然后从另一台机器连接到它(这是您希望两个用户能够访问同一H2O集群以共享数据/模型的情况(。
你要做的是启动一个多节点H2O簇。目前尚不清楚这是否会加快您的训练速度,因为使用多节点集群时会有通信开销,所以最好进行检查。如果你要添加更多的核心,例如总共80个核心的40+40,我希望在大多数情况下会加快速度,但添加4到6可能没有那么大帮助(我只是想强调,在6核心单机集群与10核心多核心集群上测试训练速度是好的(。H2O用户指南中有相关说明。这里还有一个关于H2O团簇的常见问题解答。如果文档不够清晰,请告诉我(我注意到它在示例/信息上有点稀疏(。
最后,如果您特别想使用AmazonEC2进行集群,这里有更多信息。