企业故障切换(如使用google.com)实际上是如何工作的

我们有一些针对web、FTP和电子邮件服务配置的fedora系统。我们希望镜像这些服务，这样我们就可以为用户提供接近100%的可靠性。我是一个经验丰富的Linux管理员，但对冗余系统没有太多经验。

最好的方法是什么？谷歌和亚马逊是怎么做到的？Google.com解析为多个IP地址，但如果我的本地桌面缓存了一个无法访问的IP，我会收到一条连接失败的消息。他们如何防止这种情况发生？

如果他们的一台服务器出现故障，如何在最终用户不知情的情况下自动重定向到另一个系统？

我知道有故障切换设备，但它们只是用于故障切换系统本身，而不是一个完整的网络。

假设我们有最坏的情况，比如我的主系统无法访问。Linux系统上用于提供此功能的基本组件是什么？

我在寻找概念或方法，而不是像"检查openstack"这样的答案。构成解决方案的实际部分是什么？要实现这一能力，必须做些什么？

谷歌或亚马逊发布的IP地址实际上不是他们的服务器，而是负载均衡器。负载均衡器动态地将传入的客户端连接转发到实际的服务器，并且可能在单个IP地址后面有成百上千个连接。

您可能会问，如果负载均衡器本身出现故障，会怎样？嗯，它们通常是集群工作的——至少有2个，并且都共享相同的虚拟IP地址。如果其中一个发生故障，虚拟IP似乎仍在工作，因为该负载均衡器集群的另一个成员仍在为该请求提供服务。

如果集群负载平衡器仍处于故障状态，它们会自动更改DNS，从而不再向DNS客户端播发此虚拟IP。为了使其快速，这些IP上的典型TTL设置得很低，几分钟或更短(对于谷歌来说，是5分钟)。

当然，现实比这复杂一点，但它应该给你一个大致的想法。

相关内容