2012-07-05 109 views
5

我们的应用使用带有连接和选择操作(C代码)非阻塞插座的使用。 pusedo代码如下:TCP连接在高负载下随机失败

unsigned int ConnectToServer(struct sockaddr_in *pSelfAddr,struct sockaddr_in *pDestAddr) 
    { 
     int sktConnect = -1; 
     sktConnect = socket(AF_INET,SOCK_STREAM,0); 
     if(sktConnect == INVALID_SOCKET) 
      return -1; 
     fcntl(sktConnect,F_SETFL,fcntl(sktConnect,F_GETFL) | O_NONBLOCK); 
     if(pSelfAddr != 0) 
     { 
      if(bind(sktConnect,(const struct sockaddr*)(void *)pSelfAddr,sizeof(*pSelfAddr)) != 0) 
      { 
       closesocket(sktConnect); 
       return -1; 
      } 
     } 
     errno = 0; 
     int nRc = connect(sktConnect,(const struct sockaddr*)(void *)pDestAddr, sizeof(*pDestAddr)); 
     if(nrC != -1) 
     { 
      return sktConnect; 
     } 
     if(errno != EINPROGRESS) 
     { 
      int savedError = errno; 
      closesocket(sktConnect); 
      return -1; 
     } 
     fd_set scanSet; 
     FD_ZERO(&scanSet); 
     FD_SET(sktConnect,&scanSet); 
     struct timeval waitTime; 
     waitTime.tv_sec = 2; 
     waitTime.tv_usec = 0; 
     int tmp; 
     tmp = select(sktConnect +1, (fd_set*)0, &scanSet, (fd_set*)0,&waitTime); 
     if(tmp == -1 || !FD_ISSET(sktConnect,&scanSet)) 
     { 
      int savedErrorNo = errno; 
      writeLog("Connect %s failed after select, cause %d, error %s",inet_ntoa(pDestAddr->sin_addr),savedErrorNo,strerror(savedErrorNo)); 
      closesocket(sktConnect); 
      return -1; 
     } 
    .  .  .  .  .} 

有80个这样的节点,并且应用程序以循环方式连接到它的所有节点。 在这个阶段,一些节点都无法连接(API - 连接+选择),错误号115

在下面的日志(tcpdump的输出)成功的情况下,我们可以看到 ( SYN,SYN + ACK,ACK),但没有连SYN的条目存在于tcpdump的日志失败 节点。

tcpdump的日志:

387937 2012-07-05 07:45:30.646514 10.18.92.173   10.137.165.136  TCP  33728 > 8441 [SYN] Seq=0 Ack=0 Win=5792 Len=0 MSS=1460 TSV=1414450402 TSER=912308224 WS=8 
387947 2012-07-05 07:45:30.780762 10.137.165.136  10.18.92.173   TCP  8441 > 33728 [SYN, ACK] Seq=0 Ack=1 Win=5792 Len=0 MSS=1460 TSV=912309754 TSER=1414450402 WS=8 
387948 2012-07-05 07:45:30.780773 10.18.92.173   10.137.165.136  TCP  33728 > 8441 [ACK] Seq=1 Ack=1 Win=5888 Len=0 TSV=1414450435 TSER=912309754 
All the above three events indicate the success information. 
387949 2012-07-05 07:45:30.782652 10.18.92.173   10.137.165.136  TCP  33728 > 8441 [PSH, ACK] Seq=1 Ack=1 Win=5888 Len=320 TSV=1414450436 TSER=912309754 
387967 2012-07-05 07:45:30.915615 10.137.165.136  10.18.92.173   TCP  8441 > 33728 [ACK] Seq=1 Ack=321 Win=6912 Len=0 TSV=912309788 TSER=1414450436 
388011 2012-07-05 07:45:31.362712 10.18.92.173   10.137.165.136  TCP  33728 > 8441 [PSH, ACK] Seq=321 Ack=1 Win=5888 Len=320 TSV=1414450581 TSER=912309788 
388055 2012-07-05 07:45:31.495558 10.137.165.136  10.18.92.173   TCP  8441 > 33728 [ACK] Seq=1 Ack=641 Win=7936 Len=0 TSV=912309933 TSER=1414450581 
388080 2012-07-05 07:45:31.702336 10.137.165.136  10.18.92.173   TCP  8441 > 33728 [PSH, ACK] Seq=1 Ack=641 Win=7936 Len=712 TSV=912309985 TSER=1414450581 
388081 2012-07-05 07:45:31.702350 10.18.92.173   10.137.165.136  TCP  33728 > 8441 [ACK] Seq=641 Ack=713 Win=7424 Len=0 TSV=1414450666 TSER=912309985 
388142 2012-07-05 07:45:32.185612 10.137.165.136  10.18.92.173   TCP  8441 > 33728 [PSH, ACK] Seq=713 Ack=641 Win=7936 Len=320 TSV=912310106 TSER=1414450666 
388143 2012-07-05 07:45:32.185629 10.18.92.173   10.137.165.136  TCP  33728 > 8441 [ACK] Seq=641 Ack=1033 Win=8704 Len=0 TSV=1414450786 TSER=912310106 
388169 2012-07-05 07:45:32.362622 10.18.92.173   10.137.165.136  TCP  33728 > 8441 [PSH, ACK] Seq=641 Ack=1033 Win=8704 Len=320 TSV=1414450831 TSER=912310106 
388212 2012-07-05 07:45:32.494833 10.137.165.136  10.18.92.173   TCP  8441 > 33728 [ACK] Seq=1033 Ack=961 Win=9216 Len=0 TSV=912310183 TSER=1414450831 
388219 2012-07-05 07:45:32.501613 10.137.165.136  10.18.92.173   TCP  8441 > 33728 [PSH, ACK] Seq=1033 Ack=961 Win=9216 Len=356 TSV=912310185 TSER=1414450831 
388220 2012-07-05 07:45:32.501624 10.18.92.173   10.137.165.136  TCP  33728 > 8441 [ACK] Seq=961 Ack=1389 Win=10240 Len=0 TSV=1414450865 TSER=912310185 

应用程序日志上连接通知错误 - 对应于的tcpdump的前3个表

[5258: 2012-07-05 07:45:30]Connect [10.137.165.136 <- 10.18.92.173] success. 
[5258: 2012-07-05 07:45:32]Connect 10.137.165.137 fail after select, cause:115, error Operation now in progress. Check whether remote machine exist and the network is normal or not. 
[5258: 2012-07-05 07:45:32]Connect to server([10.137.165.137 <- 10.18.92.173], port=8441) Failed! 

成功日志(即连接API +选择)。和故障日志,其中有在tcpdump的任何事件

我的问题是:当客户端发起“连接” API失败的情况下, 我不能够看到tcpdump的任何事件在客户端(甚至 初始SYN)。什么可能是这种随机性的原因。

+0

当你退出'tcpdump'时,你看到'内核丢弃的数据包'或'接口丢弃的数据包'的非零值? – 2012-07-05 15:34:46

回答

2

您已击中EINPROGRESS。从connect手册页:

套接字是非阻塞的,并且无法立即完成连接。可以通过选择用于写入的套接字来选择(2)或轮询(2)来完成。后选择(2)表示的可写性,使用的getsockopt(2)读取在水平SOL_SOCKET SO_ERROR选项的,以确定是否连接()成功完成(SO_ERROR为零)或不成功(SO_ERROR是此处列出的常用错误代码之一,解释了失败的原因)。

这就是说,EINPROGRESS是一个指示器,即使有可用的本地端口和路由高速缓存条目,内核现在也无法完成连接。看起来这发生在套接字状态尚未转换为“ESTABLISHED”时。只是等待在select插座上一遍,但事后调用getsockopt,看看你的connect已经完成。

至于为何,插座转变过程中连接到SYN_SENT状态,但该分组仍可能在输出队列中,并没有实际上它使所述网络设备还缓冲器。

+0

是否有任何内核(即TCP/IP堆栈层)参数在调整时可以通过在系统中引入更强大的功能来处理这些不一致性。基本上,在这种情况下,我们如何确保性能稳定? – 2012-07-06 09:05:21

+1

@kumar_m_kiran:如果要异步连接,请不要使用。每台设备最终都会遇到一次限制,以便能够多少次操作。如果您不想处理这种情况,请在阻止模式下“连接”,然后在成功后使套接字不阻塞。 – jxh 2012-07-06 14:33:38

0

select()返回后,您实际上没有获取套接字的当前状态 - 您在errno(从connect()调用中遗留下来)中看到一个陈旧值。最有可能你的select()只是在超时后返回。

你需要调用getsockopt(sktConnect, SOL_SOCKET, SO_ERROR, &err, ...)select()返回到拿到插座的实际状态。