企业故障切换(如使用google.com)实际上是如何工作的



我们有一些针对web、FTP和电子邮件服务配置的fedora系统。我们希望镜像这些服务,这样我们就可以为用户提供接近100%的可靠性。我是一个经验丰富的Linux管理员,但对冗余系统没有太多经验。

最好的方法是什么?谷歌和亚马逊是怎么做到的?Google.com解析为多个IP地址,但如果我的本地桌面缓存了一个无法访问的IP,我会收到一条连接失败的消息。他们如何防止这种情况发生?

如果他们的一台服务器出现故障,如何在最终用户不知情的情况下自动重定向到另一个系统?

我知道有故障切换设备,但它们只是用于故障切换系统本身,而不是一个完整的网络。

假设我们有最坏的情况,比如我的主系统无法访问。Linux系统上用于提供此功能的基本组件是什么?

我在寻找概念或方法,而不是像"检查openstack"这样的答案。构成解决方案的实际部分是什么?要实现这一能力,必须做些什么?

谷歌或亚马逊发布的IP地址实际上不是他们的服务器,而是负载均衡器。负载均衡器动态地将传入的客户端连接转发到实际的服务器,并且可能在单个IP地址后面有成百上千个连接。

您可能会问,如果负载均衡器本身出现故障,会怎样?嗯,它们通常是集群工作的——至少有2个,并且都共享相同的虚拟IP地址。如果其中一个发生故障,虚拟IP似乎仍在工作,因为该负载均衡器集群的另一个成员仍在为该请求提供服务。

如果集群负载平衡器仍处于故障状态,它们会自动更改DNS,从而不再向DNS客户端播发此虚拟IP。为了使其快速,这些IP上的典型TTL设置得很低,几分钟或更短(对于谷歌来说,是5分钟)。

当然,现实比这复杂一点,但它应该给你一个大致的想法。

最新更新