是否有一个项目可以帮助在办公桌面上设置Hadoop集群,当它们处于空闲状态时?
我想尝试使用Hadoop/MR/hbase,但没有访问5-10台计算机。工作中的计算机在下班后处于空闲状态,并通过非常高速的连接相互连接。更重要的是,这些计算机上的数据保留在我们的网络中,因此没有隐私问题。
为了使其正常工作,我需要在每台机器上运行一个相当轻量级的显示器。当计算机空闲 X 小时后,它将加入群集。如果用户登录,则必须退出群集并返回所有 CPU/内存。
这样的东西存在吗?
您可以使用任务计划程序检测空闲状态,然后使用虚拟盒子或 vmplayer 启动/停止 Hadoop 虚拟机。或者,可以编写一个 Powershell 脚本,该脚本会根据资源使用情况启动停止。
Hadoop不是一个计算网格,而是一个数据网格(请参阅本演示文稿中的幻灯片9)。关键是,使用hadoop,数据分布在集群上,因此数据必须存储在计算机上。当数据不空闲时复制/删除数据所需的时间可能不值得 - 你最好在云中使用Hadoop(亚马逊,Azure等)。
我会使用类似Condor的东西:http://research.cs.wisc.edu/condor/
你可能想看看弗吉尼亚理工大学的月球计划 http://www.wired.com/wiredenterprise/2012/05/project_moon/
看看像NEREUS这样的解决方案,它是Java中一个很好的MPC解决方案