我正在尝试为分布式系统项目实现Raft共识算法。
我需要一些非常快速的方法来知道服务器a是否可以从服务器B访问,并且a的分布式系统是否已启动。换言之,B可以访问A,但A的云系统还没有启动。所以我认为InetAddress.getByName(ip).isReachable(timeout);
是不够的。
由于每个服务器的存根都被重命名为服务器的名称,我想获取服务器的注册表,然后检查是否存在与服务器同名的存根:如果不是这样,则跳到下一个服务器,否则执行lookup
(这可能需要很长时间)。这是代码的一部分:
try {
System.out.println("Getting "+clusterElement.getId()+"'s registry");
Registry registry = LocateRegistry.getRegistry(clusterElement.getAddress());
System.out.println("Checking contains:");
if(!Arrays.asList(registry.list()).contains(clusterElement.getId())) {
System.out.println("Server "+clusterElement.getId()+" not bound (maybe down?)!");
continue;
}
System.out.println("Looking up "+clusterElement.getId()+"'s stub");
ServerInterface stub = (ServerInterface) registry.lookup(clusterElement.getId());
System.out.println("Asking vote to "+clusterElement.getId());
//here methods are called on stub (exploiting costum SocketFactory)
} catch (NoSuchObjectException | java.rmi.ConnectException | java.rmi.ConnectIOException e){
System.err.println("Candidate "+serverRMI.id+" cannot request vote to "+clusterElement.getId()+" because not reachable");
} catch (UnmarshalException e) {
System.err.println("Candidate " + serverRMI.id + " timeout requesting vote to " + clusterElement.getId());
} catch (RemoteException e) {
e.printStackTrace();
} catch (NotBoundException e) {
System.out.println("Candidate "+serverRMI.id+" NotBound "+clusterElement.getId());
}
现在的问题是服务器卡在contains()
行,因为消息Checking contains
已打印,而Looking up...
未打印。
为什么会发生这种情况?有什么办法可以加快这个过程吗?此算法是超时的FULL,因此任何建议都将不胜感激!
更新:在尝试了有关RMI超时的所有可能的VM属性之后,如:-Dsun.rmi.transport.tcp.responseTimeout=1 -Dsun.rmi.transport.proxy.connectTimeout=1 -Dsun.rmi.transport.tcp.handshakeTimeout=1
我并没有看到任何区别,即使在每个RMI操作中都应该抛出异常(因为每个超时都设置为1ms!)。
我为这个问题找到的唯一解决方案是使用RMISocketFactory
重新实现:
final int timeoutMillis = 100;
RMISocketFactory.setSocketFactory( new RMISocketFactory()
{
public Socket createSocket( String host, int port )
throws IOException
{
Socket socket = new Socket();
socket.setSoTimeout(timeoutMillis);
socket.connect(new InetSocketAddress(host, port), timeoutMillis);
return socket;
}
public ServerSocket createServerSocket( int port )
throws IOException
{
return new ServerSocket( port );
}
} );
它卡在Registry.list().
中,最终会超时。
您最好只调用lookup()
,而不执行前面的步骤,这不会增加任何值,并调查从RMI主页链接的两个属性页中提到的所有超时选项。