收藏必备!一文读懂OpenAI两大新微调技术:RFT与PFT让AI模型能力飙升
本文详细介绍了OpenAI最新提出的两种微调技术:强化学习微调(RFT)和偏好微调(PFT)。RFT利用少量高质量数据通过强化学习提升模型的推理能力,特别适用于专业领域。PFT采用DPO算法,通过比较不同输出来学习"更好"的回复,在创意写作等主观性任务上表现更佳。文章还解释了微调的基本概念、应用场景以及与SFT的区别,为开发者提供了优化大语言模型性能的新思路。
OpenAI 近期在直播中,提到了两个新的概念 :
①强化学习微调(Reinforcement Fine-Tuning): 仅需少量高质量数据(数十到数千个),模型即可通过强化学习处理复杂任务。
②偏好微调 (Preference Fine-Tuning, PFT) : 采用直接偏好优化 (例如Direct Preference Optimization, DPO) 算法,通过比较不同的模型输出,让 AI 能够学习并区分 “更好” 的回复,从而在语气、风格、创造性等主观性任务上表现更出色。
在解释这些概念之前,让我们先理解一下:
一、微调(Fine-tuning):
(1)什么是微调?
我们可以将现在使用的大语言模型想象成一座巨大的图书馆,蕴藏着海量知识。
之前大家所熟知的是,提示词工程(Prompt Engineering):在提示词中加入指令,有时也会加入一些示例(few shots)。这种通过演示引导模型完成任务的方法,被称为“少样本学习”(few-shot learning)。
微调,则是在“少样本学习”基础上的进一步提升。具体而言,我们会使用特定领域的数据来训练模型,从而使其在特定领域上表现得更加出色。换言之,微调是对模型进行针对性的“特训”,使其更好地适应特定场景。
与直接使用提示词相比,微调具有以下优势:
- (在目标领域) 效果更佳: 微调后的模型能输出更高质量的结果。
- 训练数据更多: 如果采用 few-shots 的方法,因为模型的上下文窗口限制,无法放下太多的数据,而且有很多相关研究发现模型在超长 context length 下的表现可能不如短上下文。同时,微调可以使用的数据量是不受限制的。
- 更省 Token: 微调后,提示词可以更短,从而节省 token。
- 回复 速度更快: 更短的提示词意味着更快的回复速度(主要是减少 prefill 时间)。
(2)什么时候该用微调?
微调能让模型在特定应用场景中表现更出色,但需要投入更多时间和精力,还有训歪的风险。因此我们还是应该首先尝试:提示词工程(Prompt Engineering),或者用 prompt 组成一些复杂的工作流。另外函数调用(Function Calling)可能也是一个选项,但效果可能不会太好。
一般来说,以下情况下,可以考虑使用微调:
- 提示词效果不理想: 即使反复调整提示词,模型仍然无法很好地完成任务。
- 需要大量训练数据: 如果有大量特定领域的训练数据,而提示词无法容纳,则微调是更佳选择。
- 需要更快响应和更少 Token: 微调可以帮助缩短提示词,从而提高回复速度并减少 token 消耗。
二、强化学习微调(Reinforcement Fine-Tuning):
强化学习微调只需要少量(数十至数千个)高质量数据,就能使模型通过强化学习处理目标领域的复杂任务。
它的目标是训练模型学会推理过程,而不仅仅是记住答案,从而提高模型的泛化能力和专业水平。
- 少量高质量数据驱动: RFT 的核心优势在于仅需少量高质量数据即可显著提升模型性能,比 SFT 的数据效率要高。
- 强化学习算法: RFT 采用强化学习算法,通过对模型输出的答案进行评分,并强化正确的推理路径,引导模型的学习。
- 提升推理能力: RFT 不仅仅是让模型模仿输入,而是训练模型如何在特定领域进行推理,这使得模型在解决相似问题时,能够更加灵活和准确。它是在训练模型学习如何思考,而不仅仅是记住答案。
- 适用于专业领域: RFT 特别适合于需要专业知识的领域,如法律、金融、工程、保险等,这些领域通常有明确的正确答案,并且需要复杂的推理过程。
- 与 SFT 的区别: 与传统的监督式微调(SFT)不同,RFT 更侧重于训练模型的推理能力,而不是简单地记忆训练数据。 RFT 可以被看作是对 SFT 的一种补充和改进,它将强化学习的优势融入到了模型微调的过程中。
总结来说:RFT 不仅仅是简单的微调,更是一种训练模型思考和推理的方法。 可以将其视为一个“特训班”,通过少量高质量案例和强化学习,让模型成为特定领域的专家,而不仅仅是“复读机”。
(这里可以参考 24 年初的一篇论文:REFT: Reasoning with REinforced Fine-Tuning)
SFT和ReFT在CoT替代方案存在时的比较:

三、偏好微调 (Preference Fine-Tuning, PFT) :
PFT 算是一个一直有的概念,openai 这次又提了一次。常说的 RLHF,DPO(Direct Preference Optimization 直接偏好优化)都属于偏好微调,通过比较不同的模型输出,让 AI 学习并区分哪些是“更好”的回复,从而在语气、风格、创造性等任务上表现更符合人的偏好。OpenAI 在blog 中已经把 PFT等价与 DPO 了,以下我们也聚焦在 DPO 上
- 成对比较学习: PFT 的核心机制是通过比较模型输出的一对回复,让模型学习并区分哪个是更优选的。
- 直接偏好优化 (DPO) 算法: 通过比较成对的回复,直接优化模型以偏向更优选的输出。 避免了复杂的奖励模型训练。
- 训练数据来源多样: PFT 的训练数据可以是人工标注、A/B 测试或合成数据生成的成对回复。
- 适用于主观任务: PFT 特别适用于那些 “更好” 的回复具有主观性的任务,例如:
- 创意写作
- 内容摘要
- 对话风格调整
- 主观评估任务
- 增强模型在风格、语气、创造性等方面的能力: 你可以把 PFT 看作是一个 “品味训练班”,它通过比较模型生成的不同回复,教会模型理解用户和开发者的 “品味”, 从而让模型输出更符合人类期望的,更具创造性和个性化的内容。
与监督式微调 (SFT) 的区别:

简单来说: 这是一种以偏好为导向的微调方法,而非以正确性为导向的微调方法。它采用了 DPO 算法,使其训练过程更加高效。PFT 尤其擅长处理主观性较强的任务,例如需要创造力或需要特定风格的任务。PFT 的训练数据通常包含成对的优选和非优选的回复, 而不是精确的输入输出对。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
更多推荐



所有评论(0)