Decision support through deep reinforcement learning for maximizing a courier’s monetary gain in a meal delivery environment论文学习


Conclusion

现有研究皆从平台或顾客视角出发,用确定性/随机模型、MIP、MDP、DRL 等方法解决派单与路径问题;本文首次以众包骑手个人收益最大化为目标,用单智能体及多智能体 DRL 给出“下一站去哪、这一单接不接”的策略,填补了骑手视角的空白。

本文工作:
• 以骑手个人视角,建立“空驶-接单”马尔可夫决策模型(Courier Reward Maximization Problem)。
• 开发基于真实数据的混合仿真器,用 6 种 DRL 算法(4 种价值型 + A2C)求解;D3QN 整体最优。
• 将 D3QN 策略提炼为可解释决策树,生成接近最优的静态策略。
• 扩展至多骑手竞争场景(MARL),发现当所有骑手都自私地采用 DRL 时,系统效率与个人收益均受损。

关键结论:
• DRL 策略在所有需求场景均优于静态策略。
• 骑手越“聪明”,平台越需补贴低吸引力订单。
• 自私竞争最终反噬骑手自身。

仿真框架

• 离散-事件仿真,含餐馆、顾客、骑手三类主体;订单按真实 2019 年数据生成。
• 平台每 Δt 分钟求解一次“订单-骑手”匹配:优先待单久、距离近或闲置长的骑手。
• 骑手一次只能接一单;拒单后 10 min 内不再派该单,假设静态策略拒单率 20%。
在这里插入图片描述

单骑手 MDP(Courier Reward Maximization Problem)
状态:骑手当前坐标 (x,y)、订单餐馆/顾客坐标、配送费 g、小费 t。
动作:
 a) 接单/拒单;
 b) 闲置时每 Δt 分钟选“停留”或朝四方向曼哈顿移动一格。
奖励:接单时 g + t – 行驶油费;拒单或停留为 0;空驶仅扣油费。
目标:最大化整个班期的期望折现总收益。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

多骑手扩展
• 建模为 n 个耦合 MDP(非合作博弈)。
• 每个骑手独立训练 DRL 策略,同时意识到竞争者存在;状态、转移和回报均向量化为 n 维。
• 用 MARL 求解纳什式均衡策略,衡量“自私优化”对个体及系统的双重影响。

在这里插入图片描述

单骑手求解

• 模型:高维连续-离散混合状态空间的 MDP。
• 算法族:
– 价值类:DQN、DDQN、Dueling DQN、D3QN。
‑ 用深度 Q 网络逼近 Q(s,a;θ),Bellman 目标改为 n-step 回报以缓解稀疏奖励;
‑ DDQN 用独立目标网络解耦动作选择与估值;
‑ Dueling/D3QN 把 Q 拆成状态值 V(s) + 优势 A(s,a) 进一步降低过估计。
– 策略梯度类:A2C(同步版 Actor-Critic)。
‑ Actor π(a|s;θ) 直接输出动作分布,Critic V(s;w) 估计状态值;
‑ 优势 A = R_t + γV(s_{t+1}) − V(s_t) 作为策略梯度基线;
‑ 不可行动作在 softmax 前用 −10^8 掩码屏蔽。
• 训练:经验回放 + 目标网络软更新;批大小、学习率、探索 ε 或熵正则化按环境精细调节。

多骑手(MARL)

• 场景:N 个骑手同时学习,环境非稳态 → 标准独立 RL 失效。
• 框架:Lowe 等 MADDPG-style 的离散动作 Actor-Critic。
– 每骑手 i 独立 Actor π_i(a_i|o_i;θ_i) 仅观测本地状态 o_i;
– 全局集中式 Critic Q_i(o_1…o_N, a_1…a_N; w_i) 评估联合动作,输出优势 A_i 用于更新 π_i;
– 训练时共享全局信息,执行时仅依赖本地观测,实现“集中训练-分散执行”。
• 更新:
– Critic:最小化 TD-error (y_i − Q_i)^2,其中 y_i 用目标网络计算;
– Actor:∇{θ_i} J = 𝔼[∇{θ_i} log π_i · A_i],A_i 由集中式 Critic 提供;
– 所有网络均用梯度裁剪、层归一化和经验回放稳定收敛。
工程细节
• 状态:骑手坐标、订单四元组(餐馆坐标、顾客坐标、基础运费、小费)、当前空闲时长。
• 动作:{接单, 拒单+东, 拒单+南, 拒单+西, 拒单+北, 拒单+停留} 共 6 维离散。
• 奖励:R = (运费+小费) − 单位里程油费*(取餐+送餐里程) − 空驶油费。
• 训练循环:仿真步长 Δt = 1 min,单骑手 1M 步收敛,多骑手 5M 步达到近似纳什;GPU 训练时间单骑手 2 h,多骑手 12 h (N=10)。

实验设计

• 场景:10×10 英里曼哈顿网格,10 家异质餐厅;仿真 8 h,平台每 2 min 批量派单。
• 骑手:2 h 班期,起点 (7,8),80 % 接单率。
• 需求:λ=5(稀少)、3(适中)、2(过剩)三种泊松强度。
• 对照:5 条静态空驶策略(Last、Random、Centroid、Closest、Random-Restaurant)。
• DRL:DQN、DDQN、Dueling-DQN、D3QN、A2C 五种动态策略同时学习“接单/拒单+空驶方向”。
• 多骑手扩展:5 餐厅 3 骑手小网络,比较 Centroid、单骑手 D3QN、全骑手 MARL,用 CtD、Freshness、Fulfillment Rate 衡量系统影响。
在这里插入图片描述
在这里插入图片描述

单骑手结果

• 奖励:在稀少 / 适中 / 过剩三种需求下,最优 DRL(稀少与适中用 D3QN,过剩用 Dueling-DQN)分别比最佳静态策略(Centroid)提升 28 %、12 % 和 7 %。
• 拒单:稀少场景各 DRL 策略拒单率≈0 %;过剩场景 D3QN 仅 2.9 %,显著低于 A2C 的 6.9 %。
• 空驶策略:D3QN 将骑手引导到地图底部(非餐馆最密集区),因此可同时覆盖多家餐厅的高价订单;热图显示该区域订单密度与运费双高。
• 解释性:用决策树提炼 D3QN——
– 空驶:若距餐馆 1<11.02 英里则向下移,距餐馆 9>9.49 英里则向 9 移。
– 接单:tip>$5.62 或运费>$9.53 即接受。
树策略在过剩场景可赚 $45.03,介于最佳静态 $45.12 与 D3QN $48.13 之间,且易人工执行。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

展望

未来工作:推广到更大网络、异质路网、实时数据训练工具,以及研究收益共享机制。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐