多路转接 epoll

• 事件回调机制: 避免使用遍历, 而是使用回调函数的方式, 将就绪的文件描述符结构加入到就绪队列中, epoll_wait 返回直接访问就绪队列就知道哪些文件描述符就绪. 这个操作时间复杂度 O(1). 即使文件描述符数目很多, 效率也不会受到影响.• 这些事件都会挂载在红黑树中，如此，重复添加的事件就可以通过红黑树而高效的识别出来(红黑树的插入时间效率是 logn，其中 n 为树的高度).•

Mr_Xuhhh

850人浏览 · 2025-08-20 21:29:02

Mr_Xuhhh · 2025-08-20 21:29:02 发布

多路转接 epoll

epoll 初识

按照 man 手册的说法: 是为处理大批量句柄而作了改进的 poll.

它是在 2.5.44 内核中被引进的(epoll(4) is a new API introduced in Linux kernel 2.5.44)

它几乎具备了之前所说的一切优点，被公认为 Linux2.6 下性能最好的多路 I/O 就绪通知方法.

epoll 的相关系统调用

epoll 有 3 个相关的系统调用.

epoll_create

int epoll_create(int size);

创建一个 epoll 的句柄.

• 自从 linux2.6.8 之后，size 参数是被忽略的.

• 用完之后, 必须调用 close()关闭.

epoll_ctl

int epoll_ctl(int epfd, int op, int fd, struct epoll_event*event);

epoll 的事件注册函数.

• 它不同于 select()是在监听事件时告诉内核要监听什么类型的事件, 而是在这里先注册要监听的事件类型.

• 第一个参数是 epoll_create()的返回值(epoll 的句柄).

• 第二个参数表示动作，用三个宏来表示.

• 第三个参数是需要监听的 fd.

• 第四个参数是告诉内核需要监听什么事.

第二个参数的取值:

• EPOLL_CTL_ADD：注册新的 fd 到 epfd 中；

• EPOLL_CTL_MOD：修改已经注册的 fd 的监听事件；

• EPOLL_CTL_DEL：从 epfd 中删除一个 fd；

struct epoll_event 结构如下:

在这里插入图片描述

events 可以是以下几个宏的集合：

• EPOLLIN : 表示对应的文件描述符可以读 (包括对端 SOCKET 正常关闭);

• EPOLLOUT : 表示对应的文件描述符可以写;

• EPOLLPRI : 表示对应的文件描述符有紧急的数据可读 (这里应该表示有带外数据到来);

• EPOLLERR : 表示对应的文件描述符发生错误;

• EPOLLHUP : 表示对应的文件描述符被挂断;

• EPOLLET : 将 EPOLL 设为边缘触发(Edge Triggered)模式, 这是相对于水平触发(Level Triggered)来说的.

• EPOLLONESHOT：只监听一次事件, 当监听完这次事件之后, 如果还需要继续监听这个 socket 的话, 需要再次把这个 socket 加入到 EPOLL 队列里.

epoll_wait

int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

收集在 epoll 监控的事件中已经发送的事件.

• 参数 events 是分配好的 epoll_event 结构体数组。

• epoll 将会把发生的事件赋值到 events 数组中 (events 不可以是空指针，内核只负责把数据复制到这个 events 数组中，不会去帮助我们在用户态中分配内存).

• maxevents 告之内核这个 events 有多大，这个 maxevents 的值不能大于创建epoll_create()时的 size.

• 参数 timeout 是超时时间 (毫秒，0 会立即返回，-1 是永久阻塞).

• 如果函数调用成功，返回对应 I/O 上已准备好的文件描述符数目，如返回 0 表示已超时, 返回小于 0 表示函数失败

epoll 工作原理

在这里插入图片描述

• 当某一进程调用 epoll_create 方法时，Linux 内核会创建一个 eventpoll 结构体，这个结构体中有两个成员与 epoll 的使用方式密切相关.

struct eventpoll{
....
/*红黑树的根节点，这颗树中存储着所有添加到 epoll 中的需要监控的事件
*/
struct rb_root rbr;
/*双链表中则存放着将要通过 epoll_wait 返回给用户的满足条件的事件*/
struct list_head rdlist;
....
};

• 每一个 epoll 对象都有一个独立的 eventpoll 结构体，用于存放通过 epoll_ctl 方法向 epoll 对象中添加进来的事件.

• 这些事件都会挂载在红黑树中，如此，重复添加的事件就可以通过红黑树而高效的识别出来(红黑树的插入时间效率是 logn，其中 n 为树的高度).

• 而所有添加到 epoll 中的事件都会与设备(网卡)驱动程序建立回调关系，也就是说，当响应的事件发生时会调用这个回调方法.

• 这个回调方法在内核中叫 ep_poll_callback,它会将发生的事件添加到 rdlist 双链表中.

• 在 epoll 中，对于每一个事件，都会建立一个 epitem 结构体.

struct epitem{
struct rb_node rbn;//红黑树节点
struct list_head rdllink;//双向链表节点
struct epoll_filefd ffd; //事件句柄信息
struct eventpoll *ep; //指向其所属的 eventpoll 对象
struct epoll_event event; //期待发生的事件类型
}

• 当调用 epoll_wait 检查是否有事件发生时，只需要检查 eventpoll 对象中的rdlist 双链表中是否有 epitem 元素即可.

• 如果 rdlist 不为空，则把发生的事件复制到用户态，同时将事件数量返回给用户. 这个操作的时间复杂度是 O(1).

总结一下, epoll 的使用过程就是三部曲:

• 调用 epoll_create 创建一个 epoll 句柄;

• 调用 epoll_ctl, 将要监控的文件描述符进行注册;

• 调用 epoll_wait, 等待文件描述符就绪;

epoll 的优点(和select 的缺点对应)

• 接口使用方便: 虽然拆分成了三个函数, 但是反而使用起来更方便高效. 不需要每次循环都设置关注的文件描述符, 也做到了输入输出参数分离开

• 数据拷贝轻量: 只在合适的时候调用 EPOLL_CTL_ADD 将文件描述符结构拷贝到内核中, 这个操作并不频繁(而 select/poll 都是每次循环都要进行拷贝)

• 事件回调机制: 避免使用遍历, 而是使用回调函数的方式, 将就绪的文件描述符结构加入到就绪队列中, epoll_wait 返回直接访问就绪队列就知道哪些文件描述符就绪. 这个操作时间复杂度 O(1). 即使文件描述符数目很多, 效率也不会受到影响.

• 没有数量限制: 文件描述符数目无上限.

例子：

#pragma once
#include <iostream>
#include <memory>
#include <unistd.h>
#include <sys/epoll.h> // epoll 头文件
#include "Socket.hpp"
#include "Log.hpp"

using namespace SocketModule;
using namespace LogModule;

class EpollServer
{
    // 每次epoll_wait返回的最大事件数
    const static int size = 64;
    // 默认无效文件描述符
    const static int defaultfd = -1;

public:
    // 构造函数：初始化监听Socket和epoll实例
    EpollServer(int port) : _listensock(std::make_unique<TcpSocket>()), _isrunning(false), _epfd(defaultfd)
    {
        // 1. 创建监听Socket
        _listensock->BuildTcpSocketMethod(port); // 创建TCP Socket并绑定端口
        // 2. 创建epoll实例
        _epfd = epoll_create(256); // 参数size在Linux 2.6.8后被忽略，但必须>0
        if (_epfd < 0)
        {
            LOG(LogLevel::FATAL) << "epoll_create error";
            exit(EPOLL_CREATE_ERR);
        }
        LOG(LogLevel::INFO) << "epoll_create success: " << _epfd;
        // 3. 将监听Socket添加到epoll监控中
        struct epoll_event ev;
        // 监听读事件（新连接）
        ev.events = EPOLLIN;
        // 存储关联的文件描述符
        ev.data.fd = _listensock->Fd();
        int n = epoll_ctl(_epfd, EPOLL_CTL_ADD, _listensock->Fd(), &ev);
        if (n < 0)
        {
            LOG(LogLevel::FATAL) << "add listensockfd failed";
            exit(EPOLL_CTL_ERR);
        }
    }
    // 主事件循环
    void Start()
    {
        // epoll_wait超时时间：-1表示无限阻塞
        int timeout = -1;
        _isrunning = true;
        while (_isrunning)
        {
            // 等待事件就绪
            int n = epoll_wait(_epfd, _revs, size, timeout);
            switch (n)
            {
            case 0: // 超时（没有事件发生）
                LOG(LogLevel::DEBUG) << "timeout...";
                break;
            case -1: // 错误
                LOG(LogLevel::ERROR) << "epoll error";
                break;
            default:           // 有事件就绪
                Dispatcher(n); // 分发处理就绪事件
                break;
            }
        }
        _isrunning = false;
    }
    // 事件分发器
    void Dispatcher(int rnum) // rnum: 就绪的事件数量
    {
        // LT: 水平触发模式（epoll默认）
        LOG(LogLevel::DEBUG) << "event ready ...";
        // 只遍历就绪的事件，效率高！
        for (int i = 0; i < rnum; i++)
        {
            // 获取就绪的文件描述符
            int sockfd = _revs[i].data.fd;
            // 获取具体事件类型
            uint32_t revent = _revs[i].events;
            // 读事件就绪
            if (revent & EPOLLIN)
            {
                // 监听Socket就绪（新连接）
                if (sockfd == _listensock->Fd())
                {
                    Accepter();
                }
                // 普通客户端Socket就绪（数据可读）
                else
                {
                }
            }
        }
    }
    // 新连接处理
    void Accepter()
    {
        InetAddr client;
        // accept不会阻塞，因为epoll已经告诉我们有新连接
        int sockfd = _listensock->Accept(&client);
        // 接受成功
        if (sockfd >= 0)
        {
            LOG(LogLevel::INFO) << "get a new link, sockfd: "
                                << sockfd << ", client is: " << client.StringAddr();
            // 将新连接的Socket添加到epoll监控
            struct epoll_event ev;
            ev.events = EPOLLIN; // 监听读事件
            ev.data.fd = sockfd; // 关联的文件描述符

            int n = epoll_ctl(_epfd, EPOLL_CTL_ADD, sockfd, &ev);
            if (n < 0)
            {
                LOG(LogLevel::WARNING) << "add sockfd failed";
            }
            else
            {
                LOG(LogLevel::INFO) << "epoll_ctl add sockfd success: " << sockfd;
            }
        }
    }
    // 数据读取处理
    void Recver(int sockfd)
    {
        char buffer[1024];
        // recv不会阻塞，因为epoll已经告诉我们数据可读
        ssize_t n = recv(sockfd, buffer, sizeof(buffer) - 1, 0);

        if (n > 0) // 正常读取到数据
        {
            buffer[n] = 0; // 添加字符串结束符
            std::cout << "client say@ " << buffer << std::endl;
        }
        else if (n == 0) // 客户端关闭连接
        {
            LOG(LogLevel::INFO) << "client quit...";
            // 先从epoll中移除监控，再关闭fd
            int m = epoll_ctl(_epfd, EPOLL_CTL_DEL, sockfd, nullptr);
            if (m >= 0) // 注意：epoll_ctl成功返回0
            {
                LOG(LogLevel::INFO) << "epoll_ctl remove sockfd success: " << sockfd;
            }
            close(sockfd);
        }
        else // 读取错误
        {
            LOG(LogLevel::ERROR) << "recv error";
            // 先从epoll中移除监控，再关闭fd
            int ret = epoll_ctl(_epfd, EPOLL_CTL_DEL, sockfd, nullptr);
            if (ret >= 0)
            {
                LOG(LogLevel::INFO) << "epoll_ctl remove sockfd success: " << sockfd;
            }
            close(sockfd);
        }
    }
    void Stop()
    {
        _isrunning = false;  // 停止主循环
    }

    ~EpollServer()
    {
        // 关闭监听Socket
        _listensock->Close();
        // 关闭epoll实例
        if (_epfd > 0)
        close(_epfd); 
    }

private:
    // 监听Socket智能指针
    std::unique_ptr<Socket> _listensock;
    // 服务器运行状态标志
    bool _isrunning;
    // epoll实例的文件描述符
    int _epfd;
    // 存储就绪事件的数组
    struct epoll_event _revs[size];
};

关闭监听Socket
_listensock->Close();
// 关闭epoll实例
if (_epfd > 0)
close(_epfd);
}

private:
// 监听Socket智能指针
std::unique_ptr _listensock;
// 服务器运行状态标志
bool _isrunning;
// epoll实例的文件描述符
int _epfd;
// 存储就绪事件的数组
struct epoll_event _revs[size];
};