网络编程常见问题总结

jiagou

浏览: 2534215 次

最近访客更多访客>>

cyj1988jyc

liangxuyi

manabout

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (3532)

社区版块

存档分类

2013-02 ( 70)
2013-01 ( 186)
2012-12 ( 225)
更多存档...

在网络程序中遇到的一些问题进行了总结, 这里主要针对的是我们常用的TCP socket相关的总结，可能会存在错误，有任何问题欢迎大家提出.
对于网络编程的更多详细说明建议参考下面的书籍
《UNIX网络编程》《TCP/IP 详解》《Unix环境高级编程》
非阻塞IO和阻塞IO：
在网络编程中对于一个网络句柄会遇到阻塞IO和非阻塞IO的概念, 这里对于这两种socket先做一下说明
基本概念：socket的阻塞模式意味着必须要做完IO操作（包括错误）才会返回。非阻塞模式下无论操作是否完成都会立刻返回，需要通过其他方式来判断具体操作是否成功。
设置：
一般对于一个socket是阻塞模式还是非阻塞模式有两种方式 fcntl设置和recv,send系列的参数.
fcntl函数可以将一个socket句柄设置成非阻塞模式:
flags = fcntl(sockfd, F_GETFL, 0); fcntl(sockfd, F_SETFL, flags | O_NONBLOCK); 设置之后每次的对于sockfd的操作都是非阻塞的
recv, send函数的最后有一个flag参数可以设置成MSG_DONTWAIT临时将sockfd设置为非阻塞模式,而无论原有是阻塞还是非阻塞。 recv(sockfd, buff, buff_size, MSG_DONTWAIT); send(scokfd, buff, buff_size, MSG_DONTWAIT);
区别:
读:
读本质来说其实不能是读,在实际中, 具体的接收数据不是由这些调用来进行,是由于系统底层自动完成的,read也好,recv也好只负责把数据从底层缓冲copy到我们指定的位置. 对于读来说(read, 或者 recv) ，在阻塞条件下如果没有发现数据在网络缓冲中会一直等待，当发现有数据的时候会把数据读到用户指定的缓冲区，但是如果这个时候读到的数据量比较少，比参数中指定的长度要小，read并不会一直等待下去，而是立刻返回。read的原则是数据在不超过指定的长度的时候有多少读多少，没有数据就会一直等待。所以一般情况下我们读取数据都需要采用循环读的方式读取数据，一次read完毕不能保证读到我们需要长度的数据，read完一次需要判断读到的数据长度再决定是否还需要再次读取。在非阻塞的情况下，read的行为是如果发现没有数据就直接返回，如果发现有数据那么也是采用有多少读多少的进行处理．对于读而言，阻塞和非阻塞的区别在于没有数据到达的时候是否立刻返回．
recv中有一个MSG_WAITALL的参数　recv(sockfd, buff, buff_size, MSG_WAITALL), 在正常情况下　recv是会等待直到读取到buff_size长度的数据，但是这里的WAITALL也只是尽量读全，在有中断的情况下recv还是可能会被打断，造成没有读完指定的buff_size的长度。所以即使是采用recv + WAITALL参数还是要考虑是否需要循环读取的问题，在实验中对于多数情况下recv还是可以读完buff_size，所以相应的性能会比直接read进行循环读要好一些。不过要注意的是这个时候的sockfd必须是处于阻塞模式下，否则WAITALL不能起作用。
写:
写的本质也不是进行发送操作,而是把用户态的数据copy到系统底层去,然后再由系统进行发送操作,返回成功只表示数据已经copy到底层缓冲,而不表示数据以及发出,更不能表示对端已经接收到数据.
对于write(或者send)而言，在阻塞的情况是会一直等待直到write完全部的数据再返回．这点行为上与读操作有所不同，究其原因主要是读数据的时候我们并不知道对端到底有没有数据，数据是在什么时候结束发送的，如果一直等待就可能会造成死循环，所以并没有去进行这方面的处理；而对于write, 由于需要写的长度是已知的，所以可以一直再写，直到写完．不过问题是write是可能被打断造成write一次只write一部分数据, 所以write的过程还是需要考虑循环write, 只不过多数情况下一次write调用就可能成功.
非阻塞写的情况下，是采用可以写多少就写多少的策略．与读不一样的地方在于，有多少读多少是由网络发送的那一端是否有数据传输到为标准，但是对于可以写多少是由本地的网络堵塞情况为标准的，在网络阻塞严重的时候，网络层没有足够的内存来进行写操作，这时候就会出现写不成功的情况，阻塞情况下会尽可能(有可能被中断)等待到数据全部发送完毕，　对于非阻塞的情况就是一次写多少算多少,没有中断的情况下也还是会出现write到一部分的情况.

超时控制:
对于网络IO，我们一般情况下都需要超时机制来避免进行操作的线程被handle住，　经典的做法就是采用select+非阻塞IO进行判断，　select在超时时间内判断是否可以读写操作，然后采用非堵塞读写,不过一般实现的时候读操作不需要设置为非堵塞，上面已经说过读操作只有在没有数据的时候才会阻塞，select的判断成功说明存在数据，所以即使是阻塞读在这种情况下也是可以做到非阻塞的效果，就没有必要设置成非阻塞的情况了．
这部分的代码可以参考ullib中ul_sreado_ms_ex和ul_swriteo_ms_ex．
采用ul_sreado_ms_ex读数据也是不能保证返回大于0就一定读到指定的数据长度, 对于读写操作, 都是需要判断返回的读长度或者写长度是否是需要的长度, 不能简单的判断一下返回值是否小于0. 对于ul_sreado_ms_ex的情况如果出现了发送端数据发送一半就被close掉的情况就有可能导致接收端读不到完整的数据包.
errno 只有在函数返回值为负的时候才有效,如果返回0或者大于0的数, errno 的结果是无意义的. 有些时候会出现read到0，但是我们认为是错误的情况然后输出errno造成误解，一般建议在这种情况要同时输出返回值和errno的结果，有些情况由于只有errno造成了对于问题的判断失误。

长连接和短连接的各种可能的问题及相应的处理
这里主要是发起连接的客户端的问题,这里列出的问题主要是在采用同步模型的情况下才会存在的问题.
短连接:
采用短连接的情况一般是考虑到下面的一些问题:
后端服务的问题, 考虑最简单的情况下一个线程一个连接, 如果这个连接采用了长连接那么就需要我们处理连接的线程和后端保持一一对应,然后按照某些原则进行处理(n对n的关系), 但由于一方面服务器可能增加,这样导致需要前后端保持一致,带来了更多的麻烦,另一方面线程数上不去对应处理能力也会产生影响,而短连接每次连接的时候只需要关注当前的机器,问题相对会少一些. 其实这个问题可以采用连接池的方式来解决,后面会提到. 不需要考虑由于异常带来的脏数据。负载均衡方面可以简单考虑, 无论线程数是多少还是后端服务器的数量是多少都没有关系, 每次考虑单个连接就可以了. 当然如果负载逻辑简单,并且机器相对固定,一个线程一个长连接问题也不大.
规避一些问题, 在过去有些情况下出现长连接大延时,数据没响应等问题, 测试的时候发现换短连接问题就解决了,由于时间关系就没有再继续追查, 事实上这些问题现在基本上都已经定位并且有相关的解决方案了.
不足:
效率不足, 由于连接操作一般会有50ns~200ns的时间消耗,导致短连接需要消耗更多的时间会产生TIME_WAIT问题,需要做更多的守护
长连接:
长连接相比短连接减少了连接的时间消耗, 可以承受更高的负载. 但在使用的时候需要考虑一些问题脏数据, 在一些特殊情况(特别是逻辑错误的情况下) 会存在一些我们并不需要的数据. 这个时候的处理比较安全的方式是一旦检测到就关闭连接, 检测的方式在在发起请求前用前面为什么socket写错误,但用recv检查依然成功? 介绍的方式进行检查. 不过有些程序会采用继续读把所有不需要的数据读完毕(读到 EAEGIN), 不过这种方式过分依赖逻辑了,存在了一定的风险. 不如直接断开来的简单后端连接, 前面也提到了在这种情况我们一般会采用连接池的方式来解决问题比如(public/connectpool中就可以维护不同的连接,使每个线程都可以均匀的获取到句柄) 服务端的处理这个时候需要考虑连接的数量,简单的方式就是一个长连接一个线程, 但是线程也不能无限增加( 增加了,可能造成大量的上下文切换使的性能下降). 我们一般在长连接的情况采用pendingpool的模型, 通过一个异步队列来缓冲, 这样不需要考虑客户端和服务端的线程数问题,可以任意配置(可以通过线下测试选择合适的线程数)
一些特殊的问题, 主要是长连接的延时在后面的FAQ中会有详细的说明.
一般来说,对于我们多数的内部业务逻辑都是可以采用长连接模式,不会产生太多的问题.