阻塞与非阻塞IO：高并发编程的终极真相

文章摘要：本文通过"小城IO"的比喻，生动讲解了阻塞与非阻塞I/O的核心区别。阻塞模式下线程会休眠等待（如accept无连接时），导致无法处理其他任务；而非阻塞模式通过立即返回错误码（如EAGAIN）让线程保持活动。特别强调在边缘触发(ET)模式下必须使用非阻塞+循环方式处理I/O，避免漏接事件。文章指出epoll_wait的阻塞是高效的多路复用机制，而具体I/O操作（acce

weixin_73863547

810人浏览 · 2025-08-12 16:09:44

weixin_73863547 · 2025-08-12 16:09:44 发布

🌐 终极真相：小城 IO 的守门人

—— 深入内核，彻底搞懂“阻塞”与“非阻塞”

🏙️ 背景：小城 IO 的运作原理

小城 IO 是一个数字都市，它的“居民”是线程，它们在“CPU 街道”上行走，执行任务。

每个线程一次只能做一件事。
CPU 在多个线程间快速切换，制造“并行”的假象。
但同一时间，一个线程只能执行一个函数。

🔒 第一章：什么是“阻塞”？—— 线程的“无限等待”

故事：小城有个“访客登记处”（accept 函数）。默认情况下，它是“阻塞模式”： “没有访客，你就站在门口，一直等，直到有人来。”

🧩 代码示例（阻塞的 `accept`）：

 int csock = accept(listen_sock, &addr, &len);
 //                    ↑
 // 这里！线程会卡住，直到有连接到来
 printf("新访客来了！\n");

💥 问题来了：

线程走到 accept 这一行，发现“没人来”。
它就站在原地不动，不执行下一行，也不处理其他事。
即使城中已有住户发来消息：“我要下单！”，也没人理。
整个线程被“冻结”了。

🔍 技术真相：

accept 是一个系统调用（system call），它会进入内核。

内核发现“接收队列为空”，就执行 sleep_on()，把线程放入“等待队列”。

CPU 放弃这个线程，去执行其他任务。

当新连接到来时，内核唤醒等待的线程，让它继续执行。

✅ 所以，“阻塞”不是“忙等”，而是“休眠等待”。 ❌ 但它依然“卡住”了线程，导致无法处理其他 I/O 事件。

🚪 第二章：什么是“非阻塞”？—— “没人？我先回去！”

故事：调度官下令：给登记处装上“自动感应屏”。现在，工作人员看到“没人”，不再傻等，而是说： “没人？我先回去，有事再叫我。”

🛠️ 代码：设置非阻塞

 // 给监听 socket 装上“自动感应屏”
 int flags = fcntl(listen_sock, F_GETFL, 0);
 fcntl(listen_sock, F_SETFL, flags | O_NONBLOCK);

✅ 非阻塞的 `accept` 行为：

 int csock = accept(listen_sock, &addr, &len);
 if (csock == -1) {
     if (errno == EAGAIN || errno == EWOULDBLOCK) {
         // 没有连接，立刻返回，线程继续执行
         printf("没人来，我先去干别的！\n");
     }
 }
 else {
     // 有连接，正常处理
     printf("接待访客：%d\n", csock);
 }

🔍 技术真相：

内核检查接收队列：

有连接 → 返回 socket 描述符。

无连接 → 不休眠，直接返回 -1，并设置 errno = EAGAIN。

线程不被冻结，可以立刻去处理其他任务。

⚖️ 第三章：关键对比 —— 阻塞 vs 非阻塞

场景	阻塞行为	非阻塞行为
`accept` 无连接	线程休眠，等待	立刻返回 `EAGAIN`
`read` 无数据	线程休眠，等待	立刻返回 `EAGAIN`
`write` 缓冲区满	线程休眠，等待	立刻返回 `EAGAIN`

✅ 非阻塞的核心价值： 让线程永不“卡住”，始终可以处理其他事件。

🌪️ 第四章：边缘触发（ET）的致命陷阱

故事：小城使用“边缘触发”雷达： “门铃只响一次！响过之后，不管有没有人来，都不会再响。”

🧨 问题：如果 `accept` 是阻塞的？

雷达响了一次（EPOLLIN）。
线程进入 accept，接了一个连接。
但接收队列中还有 9 个连接没接！
因为雷达只响一次，不会再通知。
那 9 个访客永远被遗忘。

✅ 解决方案：非阻塞 + 循环

 while (1) {
     int csock = accept(listen_sock, &addr, &len);
     if (csock == -1) {
         if (errno == EAGAIN) break;  // 没了，退出
     }
     // 处理新连接
     handle_new_connection(csock);
 }

🔍 为什么必须循环？ 因为一次 EPOLLIN 事件可能对应多个就绪的连接。你必须用非阻塞 accept 一口气取完，否则就会漏人。

🔄 第五章：`recv` 的读取陷阱

故事：住户发来一条 2000 字的消息。 TCP 分两批送达：第一批 1500 字，第二批 500 字。雷达只响一次（EPOLLIN）。如果你只读 1500 字就停，剩下的 500 字永远不会被读到！

✅ 正确做法：非阻塞 + 循环读取

 while (1) {
     int n = recv(sock, buf, sizeof(buf), MSG_DONTWAIT);
     if (n > 0) {
         // 处理数据
         process_data(buf, n);
     }
     else if (n == 0) {
         // 对方关闭
         close(sock);
         break;
     }
     else {
         // n == -1 && errno == EAGAIN
         // 数据已读完，退出循环
         break;
     }
 }

🔍 为什么 MSG_DONTWAIT？ 它等价于 socket 是 O_NONBLOCK 模式。确保 recv 不会阻塞，读完立刻返回。

🛌 第六章：为什么 `epoll_wait` 可以“阻塞”？

故事：调度官 epoll_wait 说：“没人敲门，我就睡觉。” 他不是“卡住”，而是“智慧休眠”。

✅ 代码：

 int ready = epoll_wait(epfd, events, 1024, -1);
 //                                 ↑
 //                                 -1 表示无限等待

🔍 技术真相：

epoll_wait 的“阻塞”是多路复用的核心机制。

它让主线程在无事时完全休眠，不消耗 CPU。

当任意一个 socket 就绪（可读/可写），内核立刻唤醒它。

它的“等”是高效的等待，不是“卡住”。

✅ 所以： epoll_wait 可以阻塞，因为它等待的是“是否有事件”。 accept/read 不能阻塞，因为它们等待的是“某个具体事件的数据”。

🧩 第七章：完整逻辑图

 主线程（Reactor）
 │
 ├── epoll_wait(-1)  ← 可以阻塞：高效等待事件
 │       ↓
 │   有事件！立刻醒来
 │       ↓
 ├── 判断事件类型
 │       ├── 是 listen_sock？ → 派任务给线程池：去 accept
 │       └── 是 client_sock？ → 派任务给线程池：去 recv
 │
 └── 继续 epoll_wait... 循环
 
 线程池线程（Worker）
 │
 ├── accepting()
 │       └── while(accept(...) != EAGAIN)  ← 非阻塞 + 循环，接完所有
 │
 └── recving()
         └── while(recv(...) != EAGAIN)    ← 非阻塞 + 循环，读完所有

💡 终极总结：一张表看懂一切

调用	是否应阻塞	为什么？	正确做法
`epoll_wait`	✅ 可以阻塞	等待“是否有事件”，高效节能	`timeout = -1`
`accept`	❌ 不能阻塞	会卡住线程，漏接连接	`O_NONBLOCK + while`
`recv`	❌ 不能阻塞	会漏读数据（ET模式）	`MSG_DONTWAIT + while`
`send`	❌ 不能阻塞主线程	可能卡住整个系统	缓冲 + `EPOLLOUT`