51c大模型~合集57

我自己的原文哦~https://blog.51cto.com/whaosoft143/12064464o1带火的CoT到底行不行？新论文引发了论战OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链（CoT）的兴趣。一时之间，似乎思维链很快就会成为所有 LLM 的标配，但思维链并非万能，就连 OpenAI 自己也提到 o1 在某些任务上的表现并不比 GPT-4o 强，尤其是以语言

whaosoft-143

2039人浏览 · 2025-11-03 13:37:31

whaosoft-143 · 2025-11-03 13:37:31 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft143/12064464

#To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

o1带火的CoT到底行不行？新论文引发了论战

To CoT or not to CoT？

OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链（CoT）的兴趣。一时之间，似乎思维链很快就会成为所有 LLM 的标配，但思维链并非万能，就连 OpenAI 自己也提到 o1 在某些任务上的表现并不比 GPT-4o 强，尤其是以语言为中心的任务。

近日，一篇来自德克萨斯大学奥斯汀分校、约翰·霍普金斯大学和普林斯顿大学的论文引发了热议，其模仿莎士比亚《哈姆雷特》的台词提出了一个对 AI 研究者和实践者来说至关重要的问题：To CoT or not to CoT？

论文标题：To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning论文地址：https://arxiv.org/pdf/2409.12183GitHub 库：https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT （待更新）

简单来说，这篇论文研究了思维链（CoT）技术帮助 LLM 解决各式问题的有效性。

首先，该团队分析了近期的相关文献，比较了 CoT 与直接回答方法（DA）的性能表现。

之后，他们使用 20 个数据集和 14 个当今主流的 LLM 在零样本提示和少样本提示设置下进行了实验。

图 1 简单总结了这两项研究的结果。

结果表明，CoT 能极大助益 LLM 解决涉及数学和符号推理的任务，至于其它任务，CoT 的效果并不显著甚至可能有损模型性能。

另一个发现是 CoT 能帮助提升执行计算和符号操作的执行步骤，但却比不上能使用外部工具的 LLM。这是什么意思呢？该团队发现，相比于使用直接回答方法，使用 CoT 时 LLM 能更好地生成可执行的形式化方案规划；但如果使用语言模型来生成方案规划，然后再使用外部符号解算器来求解该规划，性能表现还会更好一些。

这样的结果忽然让 CoT 的处境变得有点尴尬：在 CoT 有用的问题上，我们能使用外部工具做得更好；在另一些问题上，CoT 的能力又有限。

因此，该团队认为：「第一，很多广泛使用 CoT 解决的问题其实根本没必要使用 CoT：现在已有更高效方法，能以远远更低的推理成本取得相近的性能。第二，基于提示词的 CoT 不够用了，我们看到人们迫切地需要更复杂精妙的方法，比如基于搜索、交互式智能体或针对 CoT 进行过更好微调的模型的方法。」

文献研究

首先，该团队调研了近期的相关文献，比较了使用或不用 CoT 的提示词的效果。

具体指标和流程这里就不多介绍了。总之，他们从 110 篇论文（35 篇 ICLR 论文和 75 篇 NAACL 和 EACL 论文）中整理出了 1218 个实验结果，涉及 264 个数据集。之后，他们将这些相关任务分成了 14 类，表 1 展示了其中几类的定义。

文献研究结果

图 2 展示了 CoT 为不同类型的任务带来的性能增量，即使用 CoT 提示法取得的性能减去使用直接回答法取得的性能。

可以看到，在这些任务上，CoT 平均仅能带来 3.75% 的提升。其中 CoT 带来增益最大的三类任务分别是：符号推理、数学、逻辑推理。在这三个任务上，CoT 实现的平均性能为 56.9，而不使用 CoT 的表现为 45.5。而在其它任务上表现较好的个例（图中用黄色高亮标记出了 10 个），也或多或少与这三个任务有关。

但在其它任务上，CoT 的表现就没什么亮点了，平均成绩仅有 56.8，而就算不使用 CoT，直接回答法也能得到 56.1。该团队认为，这一点点提升甚至不能算作是提升，毕竟 CoT 的计算成本明显更高。

实验研究

除了研究近期文献，该团队也执行了实验，其中涉及到 20 个数据集和 14 个模型，并测试了零样本提示和少样本提示两种设置，见表 2。

实验研究结果

下面我们通过对一系列问题的解答来了解实验结果。

1.在哪些任务上，零样本 CoT 优于直接提示？

图 3 左展示了 CoT 在五个推理类别（见图 1 右）上带来的平均性能增益；图 3 右则是 CoT 在每个数据集上带来的平均性能增益。

可以看到，在非符号推理类别和数据集上，特别是那些主要包含常识（CSQA、PIQA、SiQA）、语言理解（WinoGrande）和阅读理解（AGI LSAT、ARC-Easy、ARC-Challenge）的问题上，零样本 CoT 和零样本直接回答的性能几乎没有区别。尽管这些数据集涉及推理，但 CoT 并没有带来增益。

相比之下，数学和符号类别（以及符号和半符号数据集）获得了更大的提升。CoT 在 MATH 和 GSM8k 上带来的增益分别高达 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符号数据集上，CoT 表现出了中等程度的增益。这些数据集需要应用逻辑规则才能得出答案，例如从简单的自然语言（ContextHub）或更复杂的常识性陈述（MuSR Murder Mysteries）中解析得到的一阶逻辑。

在少样本设置下得到的实验结果类似。

2.回答格式是否会影响 CoT 的有用性？

除了数学之外，许多常用的数据集都是多项选择题。该团队指出，对于两个非多项选择题的数据集（MuSiQue 和 BiGGen Bench，并且它们需要不同层级的非符号推理才能给出回答），CoT 的表现与直接回答相近。

因此，可以说回答格式对 CoT 的有用性的影响不大。并且，该团队还表示，预先针对正确响应进行规划或推理甚至可能妨碍 LLM 自由响应的能力。

3.CoT 在知识、软推理和常识推理方面带来的提升是否显著？

在 13 个涉及知识、软推理和常识推理的数据集上，该团队测试了 CoT 的表现，结果发现：答案是否定的，但 MMLU、StrategyQA 和 MuSR 是例外。在这三个数据集上，CoT 可以带来比较显著的增益。

详细研究 MMLU 和 MMLU Pro

MMLU 和 MMLU Pro 是两个范围广泛的数据集，因此很难简单地描述它们的特征。该团队详细研究了 CoT 在 MMLU 中每个类别上的性能表现，以了解 CoT 在不同领域的性能差异。

表 3 给出了 CoT 能为 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上带来最显著提升的三个类别。

可以看到，其中一些与数学有关，这不出人意料，但也有的属于「商业」等类别。不过更进一步研究发现，这些类别通常也涉及数学（比如资产计算等）。

因此，该团队对 MMLU 进行了更细粒度的研究（实例级）。他们发现问题或生成的响应中是否包含 = 这个符号非常关键，可以说是「符号推理的一个强有力的标志」。结果见图 4。

可以看到，当有 = 时，CoT 在 MMLU 和 MMLU Pro 上的表现明显会更好。该团队认为这是因为 = 通常出现在数学问题中。所以归根结底，CoT 依然是能在数学问题上为 MMLU 和 MMLU Pro 带来助益。

CoT 在形式推理方面的优势和劣势

下面来解释 CoT 有助于符号推理任务的原因。很多符号和半符号推理任务都可以分成两个阶段：规划与执行。该团队也基于此思路进行了分析。

设置 1 和 2：少样本直接回答和 CoT：使用之前的少样本直接回答和 CoT 作为基线。图 5 给出了在 GSM8K 上每个设置的示例。

设置 3 和 4：规划 + 直接求解器以及计划 + CoT 求解器。

设置 5：规划+工具求解器。

评估结果

图 6 展示了选出的代表性模型的结果。

可以看到，对于许多数据集和模型而言，仅仅有规划不足以带来明显的性能增益。与直接回答相比，CoT 或规划+ CoT 求解器是实现强大性能所必需的。使用其中一种方法跟踪执行情况可带来最大的准确性优势，尤其是对于含有大量数学内容的数据集。

尽管 CoT 或规划+ CoT 求解器比直接回答和规划+直接回答更强，但规划+工具求解器在大多数情况下还要更优。也就是说，很多时候，使用 CoT 还不如让 LLM 使用工具。

对于所有拥抱 AI 的公司而言，这是一个必须深入思考和积极应对的课题。

在上个月快手举办的 1024 程序员节活动上，这家以技术创新为核心驱动力的科技公司展示了其在生成式 AI 时代融合 AI 技术与业务场景方面的布局规划，带给了行业一些思考。

在活动现场，快手科技创始人、董事长兼首席执行官程一笑表示：「目前科技行业的竞争，关键就在于谁能够把 AI 技术和具体应用场景结合得更好」。在践行这一理念的过程中，快手逐步构建起了一套以用户需求为核心、立足现有业务场景、加速 AI 技术落地的完整技术与应用栈。

程一笑

尤其是近一两年，AI 技术快速渗透并应用到快手每一个具体的业务环节中，从内容生产、推荐、分发到电商搜索，多方发力并且成果显著，其中视频生成领域接连更新 Kling 2.0 和 2.5 Turbo 两个大版本、平台内容推荐领域推出自研 OneRec 系统、商业营销领域驱动从广告内容生产、投放到大模型用户理解、内容和商品匹配的全链路 AI 升级。

依托 AI 技术的持续创新与应用落地，快手正在构建起一个全面智能化的内容与业务生态体系，并由此带来了平台运营效率的提升，卖家、买家和用户体验的全面升级。

用 AI 重塑全链路

各业务线大变身

其实，从年初开始，AI 的落地便驶入了快车道。全球多家科技巨头的掌门人纷纷转变态度，强化对 AI 应用前景的预期。英伟达 CEO 黄仁勋曾在多个公开场合强调 AI 正完成从研究部署向工业化、规模化、工厂化的跃迁；谷歌 CEO 皮查伊也指出，AI 的影响「将比电或火更深刻」。

这些愿景的实现无不要求 AI 技术与应用场景的深度融合，国内厂商对此的洞察力与敏感度更高。以快手旗下的视频生成大模型可灵 AI 为例，在提升基础模型能力的同时着力如何多快好省地赋能创作、影视、电商及游戏等各行各业。

自 2024 年 6 月问世以来，可灵 AI 迅速崭露头角并成为业内标杆之一。短短一年多的时间，可灵已经迎来 30 余次版本更新，几乎每次都能在创作者圈中引起轰动。最新版本 Kling 2.5 Turbo 在文本响应、动态效果、风格保持、美学效果等维度均有大幅提升，API 价格也较上代大幅下调 30%，更是一度拿下 Artificial Analysis 视频榜单第一名。

图源：https://x.com/ArtificialAnlys/status/1973570493753204953

毫无疑问，可灵 AI 对改造快手现有业务具有很大的发挥空间，比如 AIGC 短视频生产营销、虚拟数字人直播。在视频生成之外，快手还在快速推动生成式 AI 在内容、商业等各个生态的落地，其中在内容推荐场景的技术创新与应用尤其引人注目，提出的 OneRec 首次以端到端生成式架构重构推荐系统全链路。

OneRec 在今年 6 月推出，旨在解决传统推荐系统级联架构导致的算力碎片化、优化目标割裂等问题。核心在于采用 Encoder-Decoder 架构，引入了基于奖励机制的偏好对齐方法，并利用强化学习增强模型效果，使得短视频内容的推荐更加契合用户偏好。

快手在多个场景推全 OneRec 之后的成效也实实在在看得见，用核心的 AB 效果（对比测试）指标说明，其在「单列消费短视频」、「本地生活短视频」和「电商商城商品卡」中分别实现了 0.091%、5.09% 和 3.25% 的提升，其他细分业务指标也均表现出不同程度的优化，进一步验证了 OneRec 的技术含金量。

此后，快手继续更新 OneRec-V2、OneRec-Think 两个版本。OneRec-V2 着重解决初代 Encoder-Decoder 架构的计算资源分配低效问题，并克服依赖奖励模型 RL 的局限性，尤其是在计算开销过大、无法真正学习到预期行为等方面的短板；OneRec-Think 进一步突破生成式推荐系统的边界，引入 LLM 的推理能力，通过将对话推理、个性化推荐与实时反馈机制集成到一个模型中，增强推荐准确性和用户信任度。

可以预见，在持续优化计算流程与算法架构的过程中，这套自研的生成式推荐系统将推动用户互动与内容分发进入到更加精准和高效的新阶段，真正实现用户与内容之间的双向奔赴。

同样地，快手在其他应用场景也加速 AI 技术的融合，比如搜索场景推出业界首个工业级部署的电商搜索端到端生成式框架 OneSearch，直播场景利用可灵等 AI 工具加速直播礼物的研发，智能投放场景上线基于 LLM 的 UAX 全自动投放 Agent，广告自动出价场景首次提出并在广告系统全面落地生成式强化学习范式。

一次次生成式 AI 的应用，标志着快手加快了全链路 AI 重塑的步伐，为整个平台生态的未来发展创造出更加广阔的想象空间。

AI 应用共识下

快手领跑全生态落地

快手的全方位布局表明，其正处于从单一 AI 技术突破向全面应用落地转进的关键阶段。这种做法实际上是如今整个行业的写照，业内其他拥有丰富应用场景的厂商也集中发力将 AI 技术融入到各自的业务中。

随着这种「技术 + 应用」并行的模式成为厂商的共识，AI 不再仅仅是提升某个具体功能的工具，而演变为新时代推动业务增长的重要引擎。这种模式在国内来得更加猛烈，并在以快手为代表的领军企业中覆盖得更广、渗透得更强。

正是在这一共识下，我们才更能理解程一笑为什么强调 AI 应用是未来竞争的关键。AI 技术想要发挥其驱动作用，只有在实际业务场景中真正用起来才能触达更多客户与用户，在帮助他们降本增效、提升使用体验的过程中实现更大价值。

快手一直站在算法创新的前沿，并自 2023 年起全面启动了 AI 战略，相对较早的布局让其稳扎稳打，抓住每一波 AI 技术浪潮并持续跟进，可灵 AI、OneRec、OneSearch 等就是最好的例证。这些技术的应用不仅可以突破传统业务的边界，也正在为整个平台带来可观的提效增收。

OneSearch 已在多个电商搜索场景部署，每天服务数百万用户并产生数千万网页浏览量；AI 加持后的直播场景 3 周即可产出 160 个新的直播礼物品类，相较传统方案（需 3 个月）四倍提速；UAX 全自动投放 Agent 的渗透率达到约 60%，投放冷启成功率提升 25%；采用生成式强化学习范式的大规模广告自动出价系统已为平台取得超过 3% 的广告收入提升。

到目前为止，一个从 AI 技术创新到应用落地再到营收增长的良性循环正在快手内部形成，并成为平台业务架构优化、竞争力提升的催化剂。而从长远来看，这种全方位的 AI 应用生态让快手具备了更强的市场适应性和增长潜力。

而凭借自身在 AI 应用上多头并进的良好态势，快手获得了市场和券商的积极重估，吸引了更多资本关注，这些都将进一步巩固其行业领先地位。

....

#马斯克、奥特曼X上再开撕

Ilya最新52页证词曝光，抖出OpenAI更多内幕

马斯克、奥特曼「冤家路窄」。

奥特曼和马斯克又在 X 上吵起来了。

前两天，奥特曼在 X 上发了三张图片，并配文「一个分为三幕的故事」。

图片显示，2018 年 7 月，奥特曼支付 4.5 万美元预订了 Tesla Roadster，在等待 7.5 年（从 2018 年到 2025 年 10 月）且 Roadster 仍未交付的情况下，奥特曼决定取消预订并索要退款。

然而，他发现 Tesla 的预订邮箱地址已失效，导致无法处理退款请求。

随后，马斯克回复奥特曼，「你忘了提第四幕，这个问题在第四幕中得到了解决，你在 24 小时内就收到了退款，但这是你的本性」，并旧事重提，指责奥特曼「你偷了一家非营利组织。」

提起这事儿奥特曼更坐不住了，转发此帖为自己辩护，强调他将 OpenAI 从马斯克离开后「奄奄一息」的状态，转变为如今估值 5000 亿美元的 AI 巨头。他认为 OpenAI 当前的混合结构是成功的必要条件。

「你还想让特斯拉收购 OpenAI，这根本不是一个非营利组织。你说我们成功率为 0%。现在你拥有一家很棒的人工智能公司，我们也有。我们难道不能都向前看吗？」奥特曼评论称。

2015 年，马斯克和奥特曼共同创立 OpenAI 作为非营利组织，目标是实现 AGI。2018 年，马斯克因分歧离开，奥特曼接手领导。2019 年，OpenAI 成立盈利子公司，吸引到了 Microsoft 的 10 亿美元投资并深度绑定。2025 年 10 月完成重组，设立 OpenAI Foundation 控股公共利益公司（PBC），与 Microsoft 走向开放合作，估值达 5000 亿美元，马斯克认为这背弃了非营利使命，提起多次诉讼。

这已经不是马斯克和奥特曼第一次在 X 上打嘴仗了，有网友调侃「他们不停地互相诋毁，但是马斯克从未限制过奥特曼在 X 上的影响力，奥特曼还在努力想买特斯拉，这俩人爱恨交织的情绪达到了顶峰。」

Ilya甩出52页猛料，OpenAI内部水有多深？

马斯克似乎并不想翻篇，转发了一位博主 po 出的 Ilya 最新证词的帖子，称这是「一个 52 页的故事」。

在这份证词中，Ilya Sutskever 曝出了他围绕罢免 Sam Altman 所采取的关键行动。

Sam Altman 被解雇的内幕

他应 OpenAI 独立董事 Adam D'Angelo、Helen Toner 和 Tasha McCauley 的要求，撰写了一份 52 页的备忘录，指控 Sam Altman 「表现出一种一贯的说谎模式，削弱他的高管，并挑拨他的高管互相对立」等行为，最终目的是「解雇」Sam Altman。

这份备忘录仅通过「阅后即焚」的邮件发送给了独立董事，Ilya 没有将文件交给 Sam Altman，因为担心 Sam Altman 会「想办法让这些讨论消失」。

此外，他还起草了另一份类似的、批评 Greg Brockman 的备忘录并发给了董事会。

备忘录依赖二手信息

不过问询显示，这份备忘录中的关键指控严重依赖二手信息。Ilya 承认，有关 Sam Altman 据称因类似行为被 YC 赶走的信息来自 Mira Murati，而 Mira Murati 又是从 Brad Lightcap 那里听说的；Ilya 并未与 Brad Lightcap 核实。

同样，关于 Greg Brockman 据称被 Stripe 解雇的指控也来自 Mira Murati，Ilya 也没有向 Greg Brockman 核实这一信息，理由是他当时「完全相信 Mira」。

在反思时，Ilya 表示他学到了「一手信息对于这类事情的至关重要性」。

罢免前后的董事会动态

在谈到罢免过程时，Ilya 认为该过程「太仓促了」，并将此归咎于「董事会缺乏经验」。他还透露，他与董事会成员 Helen Toner 和 Tasha McCauley 的互动「不太频繁」，且她们只是「偶尔」亲自出席董事会会议。

证词特别点出了 Helen Toner 的角色：Ilya 认为她发表文章称赞 Anthropic 的行为「近乎明显不合适」，并承认曾与 Sam Altman 讨论过要求 Helen Toner 离开董事会。

Ilya 还证实，在 Sam Altman 被罢免后，当高管团队警告公司将被摧毁时，Helen Toner 回应称允许公司被摧毁也「符合使命」。

Anthropic 并购提议

证词中一个重大的披露是，在 Sam Altman 被解雇后的那个周末，OpenAI 董事会收到了一个与 Anthropic 合并的提议，该提议将由 Anthropic 接管领导权。

Ilya 表示，Helen Toner 将此提议带到了董事会，并安排了与 Anthropic 领导层（包括 Dario Amodei 和 Daniela Amodei）的通话。

Ilya 对此「非常不高兴」，但指出其他董事会成员「要支持得多」，其中 Helen Toner 最为支持。该提议最终因 Anthropic 方面提出的「实际的障碍」而未能推进。

动机与现状

最后，Ilya 谈到了他自己的动机和现状。他承认，考虑罢免 Sam Altman 这件事已经「至少一年了」，他一直在等待「董事会的大多数成员不明显地和 Sam 友好」的时机。

他于 2024 年 5 月左右离开 OpenAI 创立了新公司 Safe Superintelligence，但他目前仍然持有 OpenAI 的股权，并承认其价值自他离开后有所增加。他还表示，他「猜测可能」是 OpenAI 在为他支付此次作证的律师费。

Ilya 主要证词文件整理

以下是根据证词文件整理的 Ilya 主要证词，为方便读者阅读，剔除了无关信息并总结为一问一答形式。部分内容由 AI 整理，可能产生错漏，供读者参考。

问：你把这两张截图放进了你的备忘录，对吗？答：是的。

问：然后你把你那份 52 页的备忘录（证据 19），发给了董事会的独立董事，对吗？答：是的。

问：你为什么没有把它发给整个董事会？答：因为我们当时只和独立董事进行了讨论。

问：那你为什么没有发给 Sam Altman？答：因为我觉得，如果他知道了这些讨论，他会想办法让这些讨论消失。

问：你对这份文件里包含的内容是否很小心？答：我写这份文件的方式是 —— 这份文件的背景是独立董事会成员要求我准备的，我就准备了，我非常小心。我拥有的大部分截图 —— 大部分或全部，我不记得了，我是从 Mira Murati 那里拿到的，把它们放进去是有意义的，目的是通过大量的小块证据或条目来拼凑出一幅完整的图景。

问：是哪些独立董事让你准备这份备忘录（证据 19）的？答：最有可能是 Adam D'Angelo。

问：你还记得他是什么时候让你这么做的吗？答：不记得了。

问：你还记得他对你说了什么，导致你准备了这份备忘录吗？答：我不记得他具体说了什么。

问：你能记起他大概说了什么？答：他大概是说 —— 他问我有没有截图。

问：在他问你是否有截图之前，据你所知，是什么促使他让你准备这个的？答：我和独立董事会成员讨论了这些文件的主题。在进行了一些讨论之后，要么是 Adam，要么是他们三个人一起，我不记得了，让我收集支持性的截图。

问：他们三个一起指的是 Adam D'Angelo, Helen Toner, 和 Tasha McCauley？答：是的。

问：你准备的这份文件，第一页就写着：「Sam 表现出一种一贯的说谎模式，削弱他的高管，并挑拨他的高管互相对立。」这显然是你当时的的看法？答：是的。

问：你在发送这份备忘录之前，就已经向独立董事表达了这种看法？答：是的。

问：他们有向你表达过对此的担忧吗？答：是的。

问：你是否希望他们对你写的内容采取行动？答：我希望他们能意识到这件事。但我的意见是，采取行动是适当的。

问：你认为什么行动是适当的？答：解雇。

问：你使用了某种阅后即焚的电子邮件形式发送的；对吗？答：是的。

问：为什么？答：因为我担心那些备忘录会以某种方式泄露出去。

问：我的意思是，抱歉，你担心它们泄露的顾虑是什么？答：是一种普遍的担忧。

问：你起草了一份类似的备忘录，是批评 Greg Brockman 的；对吗？答：是的。

问：你也把它发给董事会了？答：是的。

问：你那份关于 Greg Brockman 的备忘录，是否还存在任何形式的版本？答：我相信有几位律师有一份副本。

问：谁有副本？答：几位律师。

问：是哪些律师？答：我知道我的律师有副本。

问：你把 Brockman 备忘录的副本提供给你的律师了吗？答：我不记得我是具体通过什么方式给他们的。

问：你知道还有其他副本存在于别处吗？答：我不确定我是否应该回答。

问：抱歉。你是说你不确定你是否应该回答还是 —— 你是说你不确定你是否应该回答？答：是的。

问：你的律师指示你不要回答？答：这就是我听到的。

问：这是《华尔街日报》2025 年 3 月 28 日的一篇文章；标题是「Sam Altman 从 OpenAI 被解雇背后的误导秘密」。你熟悉这篇文章吗？答：不熟悉。

问：我特别提请你注意 Altman 被解雇后的那个周六？答：是的，我说的也是那个周六。

问：你当时是否担心失去你在 OpenAI 的股权？答：我不担心。

问：你在 OpenAI 的股权当时值多少钱？你认为它值多少钱？答： (证人未回答)

问：在 Sam Altman 被解雇时，你认为你在 OpenAI 的股权价值是多少？答： (证人未回答)

问：你认为价值是多少？答： (证人未回答)

问：我的问题是，在 Sam Altman 被解雇时，你认为你在 OpenAI 的股权价值是多少？答： (证人未回答)

问：你不打算回答吗？答：我的意思是，我必须听从我的律师。

问：所以你不打算回答？答：我会按我律师说的做。

问：最终，董事会同意辞职并恢复 Sam Altman 的职位，不是吗？答：是的。

问：那是什么时候？答：在那一周的晚些时候。

问：他们为什么那么做？答：问题是为什么董事会那么做？

问：正确。答：还是问题是为什么我支持这么做？

问：首先，我问你为什么董事会决定辞职并恢复 Sam Altman 的职位？答： (证人关于 AGI 和权术的看法)... 我的看法是，除了极少数例外，最有可能掌权的人将会是一个非常善于权术的人。这很像是在不同的政客之间做选择。

问：掌管什么的人？答： AGI。

问：你为什么这么说？答：世界似乎就是这样运作的。我认为非常 —— 我认为不是不可能，但我认为对于一个被描述为圣人的人来说，要做到这一点非常困难。我认为值得尝试。我只是觉得这 —— 这就像在不同的政客之间做选择。谁将成为国家元首？

问：回顾在 Sam 和 Greg 被董事会除名之前的那个过程，你对那个过程的评估是什么？答：你能详细说明一下你的意思吗？

问：你有时间反思除名之前的那个过程；对吗？答：我有时间。

问：在回顾除名之前的步骤时，你认为那个过程是正确的吗？答：我能说的一件事是，这个过程太仓促了。

问：为什么仓促？答：我认为仓促是因为董事会缺乏经验。

问：缺乏什么经验？答：董事会事务的经验。

问：在你和 Helen Toner 就 Sam 的管理问题进行你所描述的对话之前，2023 年你和她互动的频率如何？答：不太频繁。

问：你和 Tasha McCauley 互动的频率如何？答：也不频繁。

问： Tasha 担任董事会成员时住在哪里？答：我不知道。

问：你在 OpenAI 的办公场所见过她吗？答：偶尔。

问：大概多频繁？答：和董事会会议一样频繁。

问：那些会议是什么时候？答：我其实不记得确切时间了，但是有信息的。这个信息是可以查到的。

问： Tasha 她每次都亲自出席董事会会议吗？答：偶尔。我不能确认是不是每一次。

问：那 Helen 呢？她会亲自出席董事会会议吗？答：偶尔。

问：不是每一次？答：我认为也不是每一次。

问：如果你知道的话，Helen 在担任董事会成员期间住在哪里？答：我不确定。我相信她至少有部分时间住在华盛顿特区。

问：你觉得 Tasha 和 Helen 对 OpenAI 的运营有多熟悉？答：她们似乎有一些熟悉度，但我很难评估。

问：你是否将她们视为人工智能安全的专家？答： (证人未回答)

问： Helen Toner 曾在某个时候与 Open Philanthropy 有关联。你记得吗？答：我对此有模糊的印象。

问： Open Philanthropy 是否又与 Holden Karnofsky 有关联？答：我相信是这样 —— 或者至少在某个时候是这样。

问： Holden Karnofsky 娶了 Daniela Amodei？答：是的。

问： Daniela Amodei 嫁给了 Dario Amodei；对吗？答：不对。

问：抱歉，是姐妹。他们是兄妹；对吗？答：是的，没错。

问：他们都在 Anthropic；对吗？答：是的，没错。

问： Holden Karnofsky 也与 Anthropic 有关联？答：我不知道这是否确定。我相信至少在某个时候是这样。

问：你是否记得 2023 年 10 月 Helen Toner 发表了一篇批评 OpenAI 的文章？答：我确实记得。

问：你记得些什么？答：我不记得批评的性质，但我记得它在称赞 Anthropic。

问：你对那篇文章的反应是什么？答：我觉得那是一篇奇怪的文章。

问：为什么？答：我觉得她做这件事很奇怪。

问：你认为她作为 OpenAI 的董事会成员这样做合适吗？答：我认为这近乎明显不合适。

问：你当时有和任何人讨论过要求 Helen 离开董事会的前景吗？答：有。

问：你记得什么？答：我至少和 Sam 讨论过。

问：讨论了什么？答：大致是 —— 我不记得具体内容了。

问：你是否支持将 Helen Toner 从董事会中除名或要求她离开？答：至少在某个时候，我表示过支持。

问： Sam 被罢免后，你是否记得 Helen Toner 告诉员工，允许公司被摧毁也符合使命？答：我确实记得。

问：当时那番话的背景是什么？答：那是一次董事会成员和高管团队的会议。高管们告诉董事会，如果 Sam 不回来，OpenAI 就会被摧毁，这不符合 OpenAI 的使命。Helen Toner 大致是说这是符合的，但我认为她说的比这更直接。

问：比你在这里复述的更直接？答：是的。

问：你当时的反应是什么？答：我不记得我当时的反应了。

问：你认为那会符合使命吗？答：我可以想象在假设的极端情况下，答案会是「是」；但在那个时间点，对我来说答案绝对是「否」。

问：我想就这份你准备的文件（证据 19）问几个问题。你是否把最终的文件（证据 19）给 Mira Murati 看了？答：我认为有可能，而且很可能，但我没有明确的记忆。

问：在用阅后即焚链接将其传送给董事会之前，你是否给 OpenAI 的其他人看过？答：没有。

问：我想看一下第 529 页，第二页。你在这里说有理由相信 Sam 过去曾因与你在此文件中指出的类似原因被 YC 除名？答：是的。

问：你说：「Sam 因为类似的行为被 YC 赶了出去。他制造混乱，启动了许多新项目，挑拨人们互相对立，因此没有管理好 YC。」我是不是可以认为，这个的依据是 Mira 和 Brad Lightcap 的一次对话？答：这个的依据是我和 Mira 的一次对话。

问： Mira 是在向你转述她和 Brad Lightcap 的对话吗？答：这段文字是这么说的。

问：你和 Brad Lightcap 谈过吗？答：没有。

问：所以这个信息只来自 Mira？答：是的。

问：你有没有试图向 Brad 核实这个信息？答：没有。

问：你在这里底部还写道：「有趣的是，据我了解，Greg 基本上也是被 Stripe 解雇的。」答：是的。

问：那个指控的依据是什么？答： Mira 告诉我的。

问：你有试图向 Greg 核实吗？答：没有。

问：为什么不？答：我没想到。

问：为什么你没想到？答：我就是没想到。我当时认为 —— 我完全相信 Mira 给我的信息。

问：如果你翻到第 531 页。标题是「Lying to Mira About Jason's Opinion About the DSB」（就 DSB 问题对 Mira 撒谎，隐瞒 Jason 的意见）。答：是的。

问：截图 —— 我是不是可以认为这部分的所有截图都来自 Mira？答：正确。

问：这里提到了 Jason。显然是 Jason Kwon。答：是的。

问：顺便问一下，你确定他当时是总法律顾问吗？答：我不记得他当时的头衔。

问：你和 Jason 谈过关于 Turbo 的事情吗？答：没有。

问：你是否知道，Jason 事实上是否对他和 Sam 关于此事的讨论感到不安？答：我从 Mira 那里得到这个信息，我相信了。

问：你知道 GPT-4 Turbo 到底有没有通过 DSB 吗？答：我不知道。

问：你知道 Sam 是支持还是反对它通过 DSB 吗？答：事后看来，我意识到我并不知道。但在当时，我以为我知道。但我是通过二手信息知道的。

问：你后来了解到改变你看法的事实了吗？答：没有。

问：好的。答：相反，我学到了一手信息对于这类事情的至关重要性。

问：你认为依赖二手信息是个错误吗？答：我认为二手信息可能非常有用，但我认为二手信息是在邀请你做进一步的调查或探索。

问：在你文件的好几个地方，你建议读者或董事会可能想和某些人谈谈。答：是的。

问：其中一个，我记得是 Bob McGrew；对吗？答：是的。

问：你也建议和 Nick Ryder 谈谈；对吗？答：是的。

问：这些建议没有被采纳吗？答：我不知道。

问：你有没有和其他董事会成员讨论过采纳这些建议？答：没有。

问：你能翻到第 540 页吗。这是标题为「Pitting People Against Each Other」（挑拨人们互相对立）的部分。你看到了吗？答：是的。

问：翻到下一页，你看到一个例子是 “Daniela versus Mira”（Daniela 对抗 Mira）？答：是的。

问：「Daniela」是 Daniela Amodei 吗？答：是的。

问：谁告诉的你 Sam 挑拨 Daniela 对抗 Mira？答： Mira。

问：在那下面的部分，写着「Dario versus Greg, Ilya」。你看到了吗？答：是的。

问：你在这里说「Sam 没有在 Dario 想要管理 OpenAI 所有研究并解雇 Greg 的问题上表明坚定立场」？你看到了吗？答：我看到了。

问：「Dario」是 Dario Amodei？答：是的。

问：你为什么因为 Dario 的企图而指责 Sam？答：我对我在这里写的内容的记忆是，我指责 Sam 是因为他没有接受也没有拒绝 Dario 的条件。

问：你认为 Dario 的条件公平吗？答：我对 Dario 的条件没有足够精确的了解，但我的总体感觉是它们不公平，Sam 应该断然拒绝它们。

问：在第 542 页，你看到提到了 Peter Welinder 作为证人。答：是的。

问：你有没有和他就这些事情谈过，或者董事会里有其他人和他谈过吗？答：据我所知没有。

问：然后在 548 页，这是 Jakub 故事的开头。你说「涉及 Sam 撒谎，削弱 Mira，削弱 Ilya，并挑拨 Jakub 对抗 Ilya。与 Greg 和 Jakub 共同所为？」在涉及 Jakub 的事件中，Sam 的谎言是什么？答： Sam 告诉我（Ilya）和 Jakub 关于公司运营方式的相互矛盾的事情。

问：你认为那是在撒谎？答： (证人未回答)

问：我想翻到 564 页。你看这里标题是「Subtle Retaliation in Response to Mira's Feedback」（对 Mira 的反馈进行微妙的报复）。答： 564，好的。是的。

问：这里讨论了 Diane Yoon 曾出席 Mira 和 Sam 的会议。你看到了吗？答：是的，我看到了。

问：你有没有和 Diane Yoon 谈过这几页讨论的事件？答：没有。

问：那为什么不和这些被点名的人谈谈呢？答：我没想到。

问：你不记得和任何其他董事会成员讨论过和这些被点名的人谈话吗？答：正确。

问：然后你能看一下第 570 页吗。这些是 Greg 和 Sam 之间的短信截图。答：是的。

问：你是怎么拿到那些的？答：我不记得了。

问：它们是来自 Mira Murati 吗？答：哦，我想它们来自 Mira Murati，是的。

问：你之前看过的 Mira 的截图也是一样吗 —— 在第 565 和 566 页 ——Mira 对 Sam 的评估？答：是的。

问：在 2023 年 11 月期间，是否有董事会成员收到过 Anthropic 的联系？答：我没有这方面的直接确认。

问：你有没有听说有人接到过 Anthropic 的联系？答：我不 —— 我没有。我听到过猜测，但我没有听到任何确切的消息。

问：你是否知道大约在那个时候，是否有人提议 OpenAI 与 Anthropic 合并？答：我确实知道。

问：给我讲讲。答：我不知道是 Helen 联系了 Anthropic 还是 Anthropic 联系了 Helen。但他们联系了，提出了与 OpenAI 合并并接管其领导权的提议。

问：那是什么时候？答：周六。

问： 11 月 18 日，周六？答：肯定是那天。

问：是在 Sam 和 Greg 被除名后不久吗？答：是的。是在之前 —— 要么是在周六，要么是在周日。不是在周一。

问：你是怎么听说这件事的？答：因为当时和 Helen 还有其他董事会成员有一个董事会电话会议，她告诉了我们这件事。随后和 Anthropic 的领导层也进行了一次通话。

问：你是否参加了那次通话？答：是的。

问：你记得那次对话的什么内容？答：我记得 Anthropic 对此表示兴奋，并表达了问题 —— 他们在这方面会遇到的实际挑战。

问： Anthropic 方面谁在电话会议上？答：我记得 Dario Amodei 在电话会议上，还有 Daniela Amodei。至少还有另一个人，我不记得了，可能更多。

问：你对此的反应是什么？答：我对此非常不高兴。

问：为什么？答：因为我真的不希望 OpenAI 与 Anthropic 合并。

问：为什么不？答：我就是不想。

问：那其他董事会成员呢？他们支持吗？答：他们要支持得多，是的。

问：他们都支持吗？答：我想 —— 至少，没有人不支持。

问：有没有人主张合并？答：我不确定地记得了。

问：在董事会成员中，你觉得谁最支持？答：我会说我的记忆是 Helen 最支持。

问：那个提议后来怎么样了？答：我相信 —— 我的记忆是 Anthropic 提出了一些实际的障碍，所以那个提议没有继续下去。

问：你知道那些实际的障碍是什么吗？答：不知道。

问：那些与 Anthropic 的讨论持续了多久？答：极其短暂。

问：董事会成立了一个特别委员会来调查 Sam 和 Greg 的被除名事件。你记得吗？答：我记得。

问：你有理由怀疑 Bret Taylor 和 Larry Summers 的独立性吗？答：没有，据我所知没有。

问：他们雇佣了一家叫 WilmerHale 的律师事务所来进行调查？你记得吗？答：我记得他们雇佣了一家律师事务所，我不记得名字。

问：他们采访你了吗？答：是的。

问：你有理由质疑所进行的调查的廉正性吗？答：在那个时候，我已经离那些程序太远了。

问：所以你就是无法评价是好是坏？答：正确。

问：我现在想给你看最后一份证据。证据 20 在你面前。这是你之前看过的文章。答：是的。我找到了。

问：你就这篇文章和记者 Keach Hagey 谈过吗？答：没有。

问：你知道谁谈过吗？答：不知道。

问：如果你翻到以 1442 结尾的那一页。在页面最底部，它写着：“Sutskever 一直在等待一个时机，届时董事会的动态将允许替换 Altman 的 CEO 职位。” 答：是的。

问：那是正确的吗？答：是的。

问：你在等待的动态是什么？答：董事会的大多数成员不明显地和 Sam 友好。

问：那是什么时候发生的？答：当有人 —— 因为不同原因，董事会发生了一系列迅速的离职。我不记得是什么了。我不记得具体是谁离开的，但指的就是那个。

问：那么你策划提议罢免 Sam 有多久了？答：有一段时间了。我的意思是，“策划” 这个词用得不对，因为它似乎不可行。

问：它似乎不可行？答：在那之前是不可行的；所以我没有在策划。

问：你考虑这件事多久了？答：至少一年。

问：你说至少一年？答：是的。

问：然后如果你能翻到第 1444 页，在页面底部附近，你看到它说：「Sutskever 惊呆了。他本以为 OpenAI 的员工会欢呼。」那是真的吗？答：我没有预期他们会欢呼，但我也没有预期他们会有任何强烈的感受。

问：为什么呢？答：我当时就是那么想的。

问：你是否相信 Sam Altman 有朝一日会在 OpenAI 拥有经济利益？答：我记得在新闻上读到过，但我不知道有多准确。

问：当你离开 OpenAI 时，你是在 2024 年 5 月辞职的；对吗？答：我不记得了，但听起来差不多是那个范围。

问：你为什么离开？答：最终，我有一个宏大的新愿景，感觉它更适合一家新公司。

问：在你离开 OpenAI 之前的那一刻，你是否持有该公司的股权？答：是的。

问：你认为在你离开时，那部分股权的价值是多少？答： (证人被指示不要回答)

问：你现在是否仍然在 OpenAI 拥有经济利益？答：是的。

问：自你离开 OpenAI 以来，该利益的数量是增加了还是减少了？答：增加了。

问：自你离开 OpenAI 以来，你在 OpenAI 的利益价值是增加了还是减少了？答：增加了。

问：你是拒绝回答这个问题吗？答： (证人遵循律师指示未回答)

问：你是否在 2024 年宣布了你现在的公司 ——Safe Superintelligence？答：是的。

问：那家公司的目的是什么？答：做一种新的、不同的研究。

问：那具体是什么意思？答：我对如何做事有了新想法，我想尝试去做。

问：谁在为你的这次作证支付律师费？答：我不确定。我有个猜测，但我不是 100% 确定。

问：你是怎么聘请到（与这个诉讼有关的）律师的？答：我不记得确切情况了。我相信我开始和 Willkie 的另一位律师合作。我非常确定 —— 我想是我的 —— 我当时的女朋友找到了 Simona，然后我联系了 Simona。这是我的记忆。

问：你收到过（关于这个诉讼的）律师费账单吗？答：没有。

问：你没有收到过？答：没有。

问：是 OpenAI 在支付你的律师费吗？答：我想可能吧。

问：是什么让你这么想的？答：因为我不知道还会是谁。

问：是 OpenAI 的人告诉你会见这些律师并聘请他们吗？答：不是，不是。

问：自这个诉讼提起以来，你是否和 OpenAI 的任何人讨论过这个诉讼？答：没有。

问：你和 OpenAI 的任何人讨论过这次作证吗？答：没有。

问：你是否和任何代表 OpenAI 的人讨论过这个诉讼？答：没有。

问： Ilya，你刚才作证说，你相信可能是 OpenAI 在支付你的律师费；对吗？答：是的。

问：你目前是否从 OpenAI 获得任何其他经济利益？答：没有超出你已经提到的。

问：那么，除了你的律师今天在这里的指示之外，你是否认为有任何理由你不能披露你在 OpenAI 的经济利益的细节？答：没有。

参考链接：

https://x.com/sama/status/1985066410859692333

https://x.com/distributionat/status/1984924017628000296

https://storage.courtlistener.com/recap/gov.uscourts.cand.433688/gov.uscourts.cand.433688.340.1.pdf

....

#ReasonMed

达摩院推出多智能体框架ReasonMed，打造医学推理数据生成新范式

本文第一作者是阿里巴巴达摩院研究实习生孙雨，他的主要研究兴趣方向是Medical Reasoning LM。本文通讯作者是阿里巴巴达摩院资深专家徐挺洋博士。

在人工智能领域，推理语言模型（RLM）虽然在数学与编程任务中已展现出色性能，但在像医学这样高度依赖专业知识的场景中，一个亟待回答的问题是：复杂的多步推理会帮助模型提升医学问答能力吗？要回答这个问题，需要构建足够高质量的医学推理数据，当前医学推理数据的构建存在以下挑战：

数据匮乏：现有医学领域思维链数据规模较少，且缺乏一个流水线来批量构建一个高质量大规模医学推理数据集；

来源单一：现有数据集多依赖单一模型生成，未能结合不同预训练模型的知识域差异，丰富和探索多样化的推理路径；

构建数据成本高：构建高质量、大规模医学推理数据集往往需要调用大模型生成和人工参与验证，计算和人力成本都非常高昂，难以支撑百万级规模的扩展。

缺乏有效性验证：缺乏系统性实验来对比「详细解说诊断思维」与「直接给出结论」两种训练策略的优劣。

因此，我们亟需探索更科学的方法，为模型注入权威医学知识、扩展其知识边界，并生成更严谨、高质量的多步推理路径。针对上述挑战，ReasonMed 提出一套完整的医疗推理数据生成解决方案：

多源知识的整合：从四个权威医学问答基准（MedQA、MMLU、PubMedQA、MedMCQA）汇聚约 19.5 万医学问题，覆盖广泛的专业知识面。

多模型的数据构建：通过引入多个专有模型，共同生成并验证医疗推理路径，多模型互补与交叉验证提升了知识覆盖与逻辑一致性，更好的构建规模化且高质量的医学推理数据。

基于多智能体交互的多维验证和优化：设计「Easy-Medium-Difficult」分层管线，根据验证通过率动态选择不同处理策略。通过多智能体交互的方式来对医学推理数据的逻辑一致性、答案正确性和医学事实性多维度进行验证优化，实现高质量与低成本的平衡。

推理路径注入和精炼：引入推理路径注入与自动化精炼机制，以提升逻辑连贯性与知识准确度。同时对于每条推理样本保留完整的多步推理链（CoT）与由响应摘要器生成的简明答案（Response），实现推理过程与最终结论的双重监督。

基于上述框架，阿里巴巴达摩院联合多家机构提出医学推理数据生成新范式 ReasonMed，并开源百万级高质量数据集 ReasonMed370K。该范式通过多智能体协作、多温度采样与逐步校验，动态调用不同参数模型，既保证推理质量与知识注入，又显著提升数据多样性。

基于此数据集训练微调的 ReasonMed-7B/14B 在多项权威医学问答基准上（PubMedQA 上性能：82.0%）超越更大规模模型（LLaMA3.1-70B：77.4%），充分验证了「小模型 + 高质量数据」的潜力。同时 ReasonMed 也在 EMNLP 2025 上以高分（9 分）被接收。

论文链接：https://arxiv.org/abs/2506.09513
Hugging Face：https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed
Code：https://github.com/alibaba-damo-academy/ReasonMed

基于多智能体协作的医疗推理数据的构建

ReasonMed 多智能体系统介绍

ReasonMed 的多智能体体系由多个专门角色（Agents）组成，每个 Agent 负责不同阶段的推理生成、验证与优化，共同构建高质量医学推理数据集。下面是 ReasonMed 中各个组件的功能介绍：

CoT Generator（推理生成 Agent）：包含多种不同大语言模型（Qwen2.5-72B、HuatuoGPT-o1-70B、DeepSeek-R1-Distill-LLaMA-70B），通过在不同温度配置下生成多条推理路径，形成多样化的推理语料。这种多模型、跨温度的设计使 ReasonMed 能充分结合不同模型的知识优势与风格差异，既丰富推理模式，也增强数据的逻辑多样性。
Verifier（验证 Agent）：评估每条推理链的正确性、临床要点识别、逻辑一致性与医学事实准确性。输出结构化结果（Correct/Error + 原因），为后续筛选与修正提供依据。
Response Summarizer（摘要 Agent）：将复杂的 CoT 推理提炼为简洁、符合医学问答风格的总结回答，使数据同时具备推理深度与可读性。
Quality Ranker（质量排序 Agent）：对通过验证的多条正确 CoT 进行评分与排序，选出前两条质量最高的推理路径（Top-2），确保训练数据的代表性与多样性。
Error Refiner（错误修正 Agent）：聚焦难样本，基于验证反馈识别逻辑或事实错误，并调用更强模型进行针对性修正，以保持推理链逻辑完整性和事实准确性。
Score Evaluator（评分评估 Agent）：量化不同阶段推理优化的效果，评估修正后样本的整体提升幅度与数据集质量，形成闭环反馈。 ReasonMed 的多智能体系统通过「生成-验证-排序-修正-评估」的闭环流程，将多个模型的专长整合为一个高可靠、可扩展的医学推理数据构建体系。

数据生成流程

基于以上的多智能体系统，ReasonMed 整个医疗推理数据生成过程分为以下三个步骤：

数据收集（Data Collection）

ReasonMed 首先从四个权威医学问答数据集（MedQA、MedMCQA、PubMedQA、MMLU）收集 19.5 万个医学问题，构建初始问题库。这些问题覆盖解剖学、临床知识、遗传学等多个子领域，为多模型协同生成提供广泛知识基础。

多智能体推理生成与验证（Multi-Agent CoT Generation & Validation）

在该阶段，CoT Generator 针对每个问题以不同温度参数进行采样，共生成 9 条多步推理链，覆盖从直接推断到深度分析的多层逻辑，随后由 Verifier 智能体协同完成验证。这一流程实现了从多模型输出到结构化、多维验证的知识融合，确保了生成数据在多样性与正确性上的平衡，为后续分层精炼与高质量医学推理数据集的构建奠定了基础。

分层优化与推理精炼（CoT Pipeline Refinement）

根据 Verifier 验证后统计到的推理链错误数量，ReasonMed 设计了 Easy / Medium / Difficult 三条 Pipeline：

Easy Pipeline（9 条推理链中有 0–4 个错误）：对于验证通过率高的问题，直接由 Quality Ranker 选出 Top-2 优质 CoT 作为最终样本；
Medium Pipeline（9 条推理链中有 5–7 个错误）：存在部分逻辑或事实性错误的问题，调用 Error Refiner 基于 Verifier 的反馈进行针对性修正与细粒度补充，强化逻辑完整性；
Difficult Pipeline（9 条推理链中有 8–9 个错误）：错误率极高，则调用更强模型（GPT-o1）重新生成完整推理链，相当于由专家重新诊断并开具「二次报告」。该分层机制显著提升了数据一致性与可靠性。通过在不同难度层面引入差异化处理，ReasonMed 成功在保持高精度的同时，将整体数据构建成本降低约 73%，实现高质量与低成本的统一。

质量评估与数据汇总

我们通过 Score Evaluator，基于逻辑连贯性（coherence）、医学事实一致性（factual fidelity）、选项分析完整性（option analysis）等方面对样本进行 0–10 分量化评分，验证各阶段精炼带来的质量提升。

经过这一全流程筛选与优化后，最终形成 37 万条高质量医学推理样本（ReasonMed370K），用于后续模型训练与评估。基于同样的评分逻辑，我们也对比了生成的数据和当前公开医学推理数据的质量：

结果表明，ReasonMed 在评分均值上显著优于现有公开数据集，验证了 ReasonMed 框架的有效性。

为了进一步分析「显式推理」与「总结式回答」等不同的思维模式在医学大模型训练中的贡献，我们从同一数据源中抽取并拆分出三个变体：

CoTMed370K 保留原始的详细推理轨迹，重点训练模型复现多步推理过程与思维逻辑，使模型学习复杂医学推理的链式结构；
ResponseMed370K 仅保留由 Response Summarizer 生成的精炼结论部分，用于训练模型在保留关键信息的同时生成简洁、临床友好的回答。
ReasonMed370K 包含完整的多步推理链以及由多智能体生成的简明答案（Response）

ReasonMed-7B / 14B 模型效果评估

为了验证生成数据对于模型构建的贡献，我们基于 ReasonMed370K/ResponseMed370K/CoTMed370K 在 Qwen2.5-7B 进行了微调构建了三族模型 ReasonMed-7/14B，ResponseMed-7B 和 CoTMed-7B/14B。我们和当前的主流医疗/通用模型在 MedQA/MedMCQA/PubMedQA/MMLU 数据集上进行了对比。得到以下结论：

基于 ReasonMed370K 训练的小模型效果可比甚至超越 70B 级别模型

在多个权威医学问答基准（包括 PubMedQA、MedMCQA、MMLU-Med）上，ReasonMed-7B 展现了显著优势。

其中，在 PubMedQA 上达到 82.0% 的准确率，超过了 LLaMA3.1-70B 的 77.4%；在 MedMCQA 与 MMLU 医学子集上也表现稳定提升。

进一步扩展至 14B 参数规模后，ReasonMed-14B 的整体准确率达到 72.8%，相较于 Qwen2.5-14B 提升 3.8%（72.8% vs 69.0%），并在总体性能上超越 Qwen2.5-32B（72.6%），与 LLaMA3.1-70B（72.9%）几乎持平。

这表明 ReasonMed 的「多智能体生成 + 分层优化」策略具备强大的可扩展性——即便是中小规模模型，也能在医学推理任务中实现与超大模型相当的表现。

融合推理路径与总结答案的训练策略效果最佳

为了分析不同数据类型对模型推理能力的影响，团队基于同一底座（Qwen2.5-7B）训练了三个版本：

CoTMed-7B：学习完整推理路径，强调逻辑链条复现；

ResponseMed-7B：仅学习简明答案，注重输出的准确性与简洁性；

ReasonMed-7B：结合推理路径与总结式答案的混合训练策略。

结果显示，ReasonMed-7B 的融合策略效果最佳，在综合准确率上达 69.6%，分别超越 CoTMed-7B（69.1%）和 ResponseMed-7B（67.0%）。同时，其生成输出在逻辑深度与表达简洁度之间取得了良好平衡，既具可解释性，又具实用性。

这验证了 ReasonMed 的核心理念：显式推理链的学习能显著增强模型的泛化推理能力，而「推理 + 总结」融合策略是医学 QA 领域更优的训练路径。

基于多智能体的分层处理策略显著降低思维链路生成成本，兼顾质量与效率

同时我们也验证了，ReasonMed 的分层优化机制（Easy / Medium / Difficult Pipeline）在确保数据质量的同时显著降低了数据构建成本。

若完全依赖最先进的大模型 API 生成 37 万条复杂推理链，成本预计在 16,631 美元；而在 ReasonMed 的实际设计中，仅约 2.56% 的样本进入最高难度流程，需调用更强模型，其余问题均由中等规模模型完成。在这一策略下，项目总成本约 4,552 美元（o1 API 推理花费 3,595 美元），实现了 70% 以上的成本节省。

这种「难题精修、易题高效」的分层机制，在保证推理链质量与一致性的前提下，实现了高性价比的数据构建，为大规模推理数据的可持续生产提供了可复制模板。

项目意义和展望

ReasonMed 项目的推出，为医学 AI 研究提供了新的范式，其核心价值主要体现在以下几个方面：

填补医学推理数据空白：ReasonMed370K 提供了当前业界规模最大、质量最高的开源医学推理数据集，极大缓解了医学领域数据匮乏的问题，为后续研究和应用提供了坚实可靠的基础。

验证了显式多步推理在医疗模型的训练的关键作用：通过系统性地验证显式推理路径对模型性能提升的关键作用，ReasonMed 明确了知识密集型 AI 的训练方法论，为未来 AI 模型的研发提供了清晰的实践指南。

推动「小模型 + 高质量数据」路线：在特定专业领域，小模型搭配高质量数据可显著超越更大规模模型的性能，可以有效降低了医疗 AI 工具研发的成本门槛。

低成本，标准化的可扩展思维链生成框架：ReasonMed 框架可以迁移至其他知识密集领域（如生命科学，材料科学等），为构建特定领域的数据集提供了参考，具有跨领域应用的潜力。

同时，ReasonMed 相关技术也用到了达摩院多模态医疗大模型 Lingshu[1] 的构建中。接下来，我们计划进一步扩展数据覆盖的深度与广度，探索如影像诊断、多模态理解、医学工具调用等更复杂的医学推理场景。同时，我们也希望通过开放协作，让更多研究者参与数据完善与模型优化，共同建立一个持续演化、可信可复用的医学推理生态。

社区反馈

ReasonMed 发布后在社区内引发了积极反响。研究者普遍认为其「多智能体 × 分层调优」策略为高质量推理数据生成提供了新范式，并在 Hugging Face 与社区获得了广泛关注。论文发布当天即登上 Hugging Face「Paper of the Day」榜首，并获得 Hugging Face CEO 在 X 平台的转发与推荐，引发了业内研究者与开发者的热烈讨论。

[1]https://huggingface.co/lingshu-medical-mllm

....

#从架构、工艺到能效表现，全面了解LLM硬件加速

大语言模型（LLM）的发展同时往往伴随着硬件加速技术的进化，本文对使用 FPGA、ASIC 等芯片的模型性能、能效表现来了一次全面概览。

对人类语言进行大规模建模是一个复杂的过程，研究人员花了几十年的时间才开发出来。这项技术最早可追溯于 1950 年，当时克劳德・香农将信息理论应用于人类语言。从那时起，翻译和语音识别等任务取得了长足的进步。

在这个过程中，人工智能 (AI) 和机器学习 (ML) 是技术进步的关键。ML 作为 AI 的一个子集，其允许计算机从数据中进行学习。一般来说，ML 模型要么是有监督的，要么是无监督的。

在接下来要介绍的这篇论文中《 Hardware Acceleration of LLMs: A comprehensive survey and comparison 》，来自西阿提卡大学的研究者重点介绍了有监督模型。

论文地址：https://arxiv.org/pdf/2409.03384

根据论文介绍，深度学习模型分为生成式和判别式。生成式人工智能是深度学习的一个子集，它使用神经网络来处理标记和未标记的数据。大型语言模型 (LLM) 有助于理解字符、单词和文本。

2017 年，Transformer 彻底改变了语言建模。Transformer 是一种神经网络，它使用注意力机制处理长期文本依赖关系。谷歌于 2017 年创建了第一个用于文本翻译的 Transformer 模型。Transformer 此后不断发展，改进了注意力机制和架构。发展到今天，OpenAI 发布的 ChatGPT 是一个著名的 LLM，它可以预测文本并能回答问题、总结文本等。

本文对使用硬件加速器来加速 Transformer 网络所做的一些研究工作进行了全面的调查。该调查介绍了已提出的框架，然后对每个框架的技术、处理平台（FPGA、ASIC、内存、GPU）、加速、能源效率、性能（GOP）等进行了定性和定量比较。

FPGA 加速器

在这一部分中，作者以 A-T 编号的方式列举了有关 FPGA 的研究，可谓调查的非常详细。每项研究都用简短的几句话概括，阅读起来简单又清晰。举例来说：

FTRANS 。2020 年，Li 等人提出了一种硬件加速框架 FTRANS，旨在加速基于 Transformer 的大规模语言表示。FTRANS 显著提高了速度和能效，超越了 CPU 和 GPU 实现，在一系列比较后显示 FTRANS 比其他方案快 81 倍，能效高 9 倍，特别是与使用 VCU118 (16nm) 的 GPU 处理器 RTX5000 相比。该加速器的性能速率为 170 GOP，能效率为 6.8 GOP/W。

多头注意力。2020 年，Lu 等人提出了一种基于 FPGA 的架构，用于加速 Transformer 网络中计算最密集的部分。在他们的工作中，他们为两个关键组件提出了一种新型硬件加速器，即多头注意力 (MHA) ResBlock 和位置前馈网络 (FFN) ResBlock，它们是 Transformer 中最复杂的两个层。所提出的框架是在 Xilinx FPGA 上实现的。根据性能评估，与 V100 GPU 相比，所提出的设计实现了 14.6 倍的加速。

FPGA NPE。2021 年，Khan 等人提出了一种用于语言模型的 FPGA 加速器，称为 NPE。NPE 的能源效率比 CPU（i7-8700k）高约 4 倍，比 GPU（RTX 5000）高约 6 倍。

除此以外，文中还介绍了 ViA 、 FPGA DFX 、 FPGA OPU 等研究，这里就不再详细介绍了。

基于 CPU 和 GPU 的加速器

TurboTransformer。2021 年，Jiarui Fang 和 Yang Yu 推出了 TurboTransformers 加速器，这是一种在 GPU 上专为 Transformer 模型打造的技术。TurboTransformers 在可变长度输入的延迟和性能方面优于 PyTorch 和 ONNXRuntime，速度提高了 2.8 倍。

Jaewan Choi。2022 年，研究员 Jaewan Choi 发表了题为「Accelerating Transformer Networks through Rewiring of Softmax Layers」的研究，文中提出了一种加速 Transformer 网络中 Softmax 层的方法。该研究引入了一种重新布线技术来加速 Transformer 网络中的 Softmax 层，随着 Transformer 模型处理更长的序列以提高准确率，这项技术变得越来越重要。所提出的技术将 Softmax 层划分为多个子层，更改数据访问模式，然后将分解的 Softmax 子层与后续和前面的过程合并。该方法分别将 BERT、GPT-Neo、BigBird 和 Longformer 在当前 GPU 上的推理速度加快了 1.25 倍、1.12 倍、1.57 倍和 1.65 倍，显著减少了片外内存流量。

SoftMax。2022 年，Choi 等人提出了一种通过重组 Softmax 层加速 Transformer 网络的新框架。Softmax 层将注意力矩阵的元素归一化为 0 到 1 之间的值。此操作沿注意力矩阵的行向量进行。根据分析，缩放点积注意力 (SDA) 块中的 softmax 层分别使用了 BERT、GPT-Neo、BigBird 和 Longformer 总执行时间的 36%、18%、40% 和 42%。Softmax 重组通过显著减少片外内存流量，在 A100 GPU 上对 BERT、GPT-Neo、BigBird 和 Longformer 进行推理时实现了高达 1.25 倍、1.12 倍、1.57 倍和 1.65 倍的加速。

此外，论文还介绍了 LightSeq2 、 LLMA 、 vLLMs 等研究。

ASIC 加速器

A3。2020 年，Hma 等人提出了一项关于 Transformer 网络加速的早期研究，称为 A3 。不过，研究人员所提出的方案尚未在 FPGA 上实现。基于性能评估，与 Intel Gold 6128 CPU 实现相比，所提出的方案可实现高达 7 倍的加速，与 CPU 实现相比，能效可提高 11 倍。

ELSA。2021 年，Ham 等人提出了一种用于加速 Transformer 网络的硬件 - 软件协同设计方法，称为 Elsa 。ELSA 大大减少了自注意力操作中的计算浪费。

SpAtten。2021 年，Want 等人提出了一种用于大型语言模型加速的框架 Spatten。SpAtten 采用新颖的 NLP 加速方案，以减少计算和内存访问。SpAtten 分别比 GPU（TITAN Xp）和 Xeon CPU 实现了 162 倍和 347 倍的加速。在能源效率方面，与 GPU 和 CPU 相比，SpAtten 实现了 1193 倍和 4059 倍的节能。

在这部分，作者还列举了加速 transformer 网络的新方法 Sanger、用于提高自然语言处理中 transformer 模型效率的 AccelTran 等多项研究。

内存硬件加速器

ATT。2020 年，Guo 等人提出了一种基于注意力的加速器加速方法，称为 ATT，该方法基于电阻性 RAM。根据性能评估，ATT 与 NVIDIA GTX 1080 Ti GPU 相比，可以实现 202 倍的加速。

ReTransformer。2020 年，Yang 等人提出了一种用于加速 Transformer 的内存框架，称为 ReTransformer。ReTransformer 是一种基于 ReRAM 的内存架构，用于加速 Transformer，它不仅使用基于 ReRAM 的内存架构加速 Transformer 的缩放点积注意力，而且还通过使用提出的矩阵分解技术避免写入中间结果来消除一些数据依赖性。性能评估表明，与 GPU 相比，ReTransformer 可以实现高达 23.21 倍的加速，而相应的整体功率降低了 1086 倍。

iMCAT。2021 年，Laguna 等人提出了一种用于加速长句 Transformer 网络的新型内存架构，称为 iMCAT。该框架结合使用 XBar 和 CAM 来加速 Transformer 网络。性能评估表明，对于长度为 4098 的序列，这种方法实现了 200 倍的加速和 41 倍的性能改进。

除此以外，该章节还介绍了 iMCAT 、 TransPIM 、 iMTransformer 等研究。

定量比较

下表 I 列出了目前所有的硬件加速器以及各自的主要特性，包括加速器名称、加速器类型（FPGA/ASIC/In-memory）、性能和能效。

在某些情况下，当提出的架构与 CPU、GPU 进行比较时，以往的工作也会提及加速这一指标。不过，由于每种架构的基线比较不同，因而本文只展示了它们的绝对性能和能效，而没有涉及加速。

性能定量比较

下图 1 展示了不同工艺技术下，每种加速器的性能；图 2 展示了更加清楚的对数尺度性能。

我们可以看到，采用 14nm 工艺的 AccelTran（服务器）实现最高性能，达到了 372000 GOPs，而 ReTransformer 模型的性能最低。此外，ViA、Me-ViT 和 Ftrans 等采用相同工艺技术的模型并没有实现相似的性能。

不过，对于没有采用相同工艺技术的加速器，则很难进行公平比较。毕竟，工艺技术会对硬件加速器性能产生显著的影响。

能效 vs 工艺技术

下图 3 展示了大多数硬件加速器的能效（GOPs/W）水平，图 4 展示了对数尺度层面的能效。由于很多架构没有测量能效，因而本文只列出了提供了能效的加速器。当然，很多加速器采用了不同的工艺技术，因此很难进行公平比较。

结果显示，以内存为主（In-Memory 加速器）的模型具有更好的能效表现。原因在于数据传输减少了，并且这种特定的架构允许数据在内存中直接处理，而不需要从内存传输到 CPU。

16nm 工艺下的加速比较

下表 II 展示了 16nm 工艺下，不同硬件加速器的外推性能。

下图 5 展示了当在相同的 16nm 工艺技术下外推性能时，不同硬件加速器的绝对性能，其中 AccelTran 的性能水平最高。

实验外推

本文针对 FPGA 架构进行了实验外推，并测试了 20nm、28nm、40nm、 55nm、65nm 和 180nm 工艺下技术不同的矩阵乘法代码，以验证 16nm 工艺的理论转换效果。研究者表示，FPGA 技术上的矩阵乘法结果有助于外推不同硬件加速器在相同工艺技术上的结果。

下表 III 展示了不同 FPGA 设备、工艺技术以及矩阵乘法 IP 核的结果。

下图 6 展示了每种 FPGA 设备和矩阵乘法工艺技术的最大时钟频率。由于 FPGA 的性能依赖于最大时钟频率，因此外推性能使得不同工艺技术下架构之间能够实现公平比较。

更多实验细节请参阅原论文。

....

#可灵AI~1.5模型

最强卷王3个月进化9次！可灵AI上新1.5模型，国外网友：太疯狂

直出 1080p 影视级视频，加量不加价，相当良心。

传说中的 Sora 公测还遥遥无期，「卷王」可灵又又又上新了。

要知道，自今年 6 月发布以来，仅三个月，可灵 AI 就迭代了 9 次。

这次它还直接把基座模型升级了，推出可灵 1.5 模型。

那么，这个新模型到底强在哪儿？

举个例子，我们输入同样的 Prompt：一位女生看到一封信后悲伤起来，不停地哭泣。

1.0 模型的效果是这样的：

1.5 模型的效果则是这样：

，时长00:10

（视频来源：X 博主 Pierrick Chevallier）

一言以蔽之，可灵 1.5 模型不仅显著提升画质，直出 1080p 视频，还让画面主体的动幅更大、质量更高，文本响应度也更强。

甚至官方还放出「豪言」，与可灵 1.0 模型相比，1.5 模型的内部评测整体效果提升 95%。

，时长00:05

同时，可灵 AI 还在图生视频中引入了全新的「运动笔刷」功能，进一步提升对视频生成的精准控制能力。

别看可灵 AI 拿出了不少宝贝，但加量不加价，生成价格不变，一则高品质模式视频仍是 35 个灵感值。

国外网友已经玩疯了，甚至一度把服务器挤崩溃。

废话不多说，是骡子是马，现在咱就拉出来遛遛。

可灵AI官网链接：https://klingai.kuaishou.com/

媲美电影大片的质感

此前的可灵 1.0 模型，在高品质模式下只能生成 720p 的视频，虽在众多视频生成模型中表现出色，但随着用户对 AI 技术的期望不断提升，这个清晰度已无法满足他们的高标准需求。

现在可灵 AI 新推出可灵 1.5 模型，支持高品质模式下，生成 1080p 高清视频。

例如，我们输入 Prompt：一只拟人化的橘猫，戴着黑框眼镜，圆脑袋大肚子，穿着白衬衫，坐在电脑桌前，表情疲惫想睡觉。

1.0 模型：

1.5 模型：

，时长00:05

虽然二者均遵循了 Prompt 的要求，但从美感上来说，1.5 模型的橘猫倚在座位上眯着眼打盹，模样更憨态可掬，柔和的台灯光线洒在橘猫脸上，配色也更自然。

再来个科幻风格的。

Prompt：超现实，电影，宇航员驾驶着马车在荒凉的月球上前行，极致细节。

1.0 模型：

1.5 模型：

，时长00:05

在可灵 1.0 模型中，两位宇航员乘坐的马车稍显简陋，只有一匹马、俩轮子，外加一块破布胡乱摆动。

而到了 1.5 模型，全副武装的宇航员端坐在车厢中，马蹄上裹着金属材质的护腿，散发着蓝色的幽光，无论是构图还是氛围感，都有科幻电影的感觉。

我们继续输入 Prompt：一只在指尖上行走的微型小斑马。

众所周知，手指扭曲向来是 AI 的通病之一，但在可灵 1.5 模型中，手部细节并未出现明显的 bug，同时还发挥想象力，展示出一位年轻女子注视迷你斑马的镜头，眼神流转甚是逼真。

，时长00:05

再比如 Prompt：一个小男孩正在街上滑滑板。

，时长00:05

可灵 1.5 模型中，小男孩从站立滑行到缓慢俯身抓住滑板，整套动作行云流水，也比较符合物理世界的运动规律。

同时，男孩面部表情自然，丝毫没有崩坏，头发丝也清晰可见，对光影的处理更是到位，整个画面极具电影美感。

还有国外网友用可灵 1.5 模型生成了一段女孩站在废墟中的场景。

战争过后一片狼藉，小女孩无助地站在废墟之上，眉头紧锁，眼中流露出无尽的悲伤和恐惧，其真实性和细节处理得堪比实地拍摄。

，时长00:05

动幅再大也不崩

目前，市面上大部分 AI 生成模型都有个毛病，要么是运动幅度小、流畅性不足，要么就是动幅太大，冒出诡异画面。

例如，骑摩托骑到天上去的大妈们：

此次可灵 1.5 模型把动态质量提升到一个新 level，可以让视频中的角色运动幅度更大、动作更合理，还能保持一致性。

Prompt：一个短发亚洲女孩儿，穿着米色宽松毛衣，浅棕色裤子，骑着一辆罗马假日的小摩托，摩托是蒂芙尼蓝的颜色，在罗马的街头，阳光明媚，完美构图，精美画面，细节刻画，电影镜头。

1.0 模型：

1.5 模型：

1.5 模型中女孩手握车把调整方向，头发也随之飘动，整体的运动幅度更大，电动车的运行轨迹也更合理。

Prompt：一只毛茸茸的黄色小猫正在玩一只小小的红色毛线团。

1.0 模型：

1.5 模型：

，时长00:05

在这轮测试中，两个模型的表现各有千秋。

1.0 模型强调的是小猫咪撩拨拴在脖子上的红毛线，构图、配色颇具美感；1.5 模型则突出小猫抬起爪子玩线团，无论是小猫的动作还是毛线团的转动，其运动幅度都更大。

我们再来试一下图生视频功能。上传一张马斯克的图片，输入提示词：马斯克正在吃汉堡。

1.0 模型：

1.5 模型：

，时长00:05

背靠有着众多吃播视频的快手，可灵 AI 在吃饭视频生成上可以说是无人能敌。在这一轮的 PK 中，两大模型的生成效果不相上下。

「硅谷钢铁侠」马斯克秒变吃货，他先是拿起汉堡看了一眼，然后张大嘴巴咬一口，咀嚼时下巴一上一下，两颊有节奏地颤动着，汉堡上也留下清晰的咬痕。

最让人惊喜的，还是猪八戒拿起筷子吃面条这段：

二师兄端着碗，提起筷，挑起一坨面条就歪着脑袋呼呼地往嘴里送。不得不说，猪八戒握筷子的姿势，简直比人类还有范，那面条的垂坠感表现得也相当细腻。

再复杂的镜头语言也能 get 到

除了画质更高、运动幅度更大外，可灵 1.5 模型还可以响应更复杂的文本描述要求，甚至还能「无中生有」。

例如，我们上传一张没有人物的牛肉面的图片，然后再配上 Prompt：镜头拉远，一个小女孩拿着筷子开始吃饭。

可灵 1.5 模型生成的视频中，随着镜头缓慢拉远，一双筷子入画，继而出现一个手握筷子、嗦着面条的小女孩。

，时长00:05

而在 1.0 模型中，对于提示词的理解就稍微欠缺一些，画面中没有出现人物，只是出现了一双筷子慢慢夹起了碗中的牛肉。

我们还输入了一段如同小作文般的文本描述，既包括诸多场景细节，又有镜头景深的要求。

Prompt：一只花斑狗在浓密的花园中欢快地穿梭，仿佛在追逐着什么，它向前小跑着，眼睛睁得大大的，充满喜悦之情，在行走的过程中，它仔细地扫视着树枝、花朵和树叶，小径十分狭窄，花斑狗不得不在植物之间穿梭而行，画面是从地面角度拍摄的，紧跟花斑狗的步伐，提供了一个低矮而亲密的视角，画面色调温暖，颗粒感明显，给人一种电影般的视觉效果，树叶和植物上方洒落的阳光营造出温暖的对比效果，突出了花斑狗的毛发。画面清晰锐利，景深较浅。

可灵 1.5 模型生成效果如下：

它不仅准确理解了输入的指令，还生成与之匹配的视频内容，画面整体构图和光影表现也让视频颇具艺术感和观赏性。

再来一个镜头语言更复杂的 Prompt：灯塔周围的超快速无人机视角，悬崖，戏剧性，pov 镜头，电影。

1.0 模型：

1.5 模型：

「pov 镜头」、「超快速无人机视角」等镜头描述，无疑加大了 AI 理解难度，但两个模型均给出了超预期的画面。

1.5 模型生成的画面更稳，镜头由远及近慢慢推进，矗立在悬崖上的灯塔还射出一道白色的亮光。

而 1.0 模型的镜头转换则更加刺激，先是一顿旋转式俯拍，接着近距离环绕拍摄，完全契合了超快速无人机拍摄的文本描述。

一勾一画，指哪动哪

图生视频时，为了大幅提升创作者对运动效果的控制能力，可灵 AI 还带来了「运动笔刷」功能。

不过，该功能只能在可灵 1.0 模型中使用。

玩法也很简单。

比如，我们上传一张水母的图片，然后将图片中需要控制运动方向的部分勾勒出来，再画一个示意运动方向箭头，就可实现精准运动控制。

当然，我们也可以开启「自动检测区域」的按钮，让 AI 自动识别，还可以为某些元素额外指定静止区域，让视频内容有更好的运动控制及运动表现。

上效果：

值得注意的是，目前该功能可以为图中的 6 个元素指定运动轨迹。

比如让三只水母在海里朝着不同方向游动：

或者把一幅梵高风格的油画，各种涂抹标轨迹。

最终生成的视频竟有了一种 3D 效果：

此外，可灵 AI 还顺道升级了其他功能，比如可一次性生成最多 4 条视频；「图生视频」功能新增支持 10 秒时长、标准模式下支持增加尾帧；「AI 图片」支持画质增强等。

可灵 AI 的这些新功能一经推出，便吸引了全球网友前往「尝鲜」。不少网友体验后表示，这是迄今为止最好的视频生成模型，足以媲美专业电影制作的标准。

自今年 6 月份首次亮相以来，可灵 AI 已经进行了 9 次迭代升级，至今已服务超过 260 万用户，生成 5300 万张图片和 2700 万个视频，深受包括国内知名导演在内的创作者们的青睐。

为了进一步探索 AI 在电影制作中的潜力，快手还特别启动了「可灵 AI」导演共创计划。该计划汇聚了李少红、贾樟柯、叶锦添等 9 位杰出导演，他们将利用可灵 AI 的技术，创作 9 部 AIGC 电影短片，这不仅是技术与艺术的结合，也是对未来电影制作模式的一次大胆尝试。

由此可见，AI 对电影行业的重塑已不再是一个遥远的预言，而是正在发生的现实。AI「新影像」时代正呼啸而来。

参考链接：

可灵官网 https://klingai.kuaishou.com/

https://x.com/CharaspowerAI/status/1836519202112573940

....

#Training Language Models to Self-Correct via Reinforcement Learning

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

无需依赖外部反馈或额外模型，纯纯的自我纠正。

自我纠正（Self-correction）是大语言模型 (LLM) 非常重要的能力，但人们发现这种能力在现代 LLM 中基本上很少存在。现有的训练自我纠正的方法要么需要多个模型，要么依赖于更强大的模型或其他形式的监督。

我们如何才能让 LLM 具备自我纠正能力？之前的研究要么依赖于提示工程，要么依赖于专门用于自我纠正的微调模型。但前者通常无法有效地进行有意义的内在自我纠正，而后者基于微调的方法需要在推理时运行多个模型，例如需要 oracle「教师」来监督指导自我纠正过程。

在最近提交的一篇论文中，来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法，即通过强化学习进行自我纠正（SCoRe，Self-Correction via Reinforcement Learning)，只需训练一个模型，该模型既可以对推理问题做出响应，也可以纠正错误，尽管没有收到任何 oracle 反馈。更重要的是，SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力，而无需任何 oracle。

论文标题：Training Language Models to Self-Correct via Reinforcement Learning

论文地址：https://arxiv.org/pdf/2409.12917

本文主要贡献在于提出了一种多轮强化学习方法 ——SCoRe，用于教 LLM 如何纠正自己的错误。相对于基础 Gemini 模型，SCoRe 在 MATH 推理问题的自我纠正方面获得了 15.6% 的增益，在 HumanEval 编码问题上获得了 9.1% 的增益。

SCoRe 原理介绍

为了教 LLM 进行自我纠正，SCoRe 将标准单轮强化学习（公式 2）扩展到 Zhou 等人提出的分层框架下的多轮设置。

不过这样做面临诸多挑战。首先，优化公式 1 解决了分布偏移问题，但尚不清楚它是否也能满足要求 [D2]。

这里的 [D2] 如下图所示，图中展示了 SFT 方法失败的两个原因。而有效的解决方案必须满足两个要求：[D1] 模型应该直接在自生成轨迹上进行训练，以缓解 SFT 的分布不匹配（图 4），[D2] 所采用的自生成轨迹应防止在学习过程中因进行微小编辑而崩溃。

作者开发了一种在线 RL 方法，通过仔细的初始化和奖励塑造来解决这些挑战。

其次用于微调的基础模型初始化在编辑距离上呈现出高度倾斜的分布（图 3a），这使得它们容易受到模式崩溃的影响，这是深度强化学习中一个常见的问题。即使基础模型可以在自我校正过程中产生编辑距离比倾斜度较小的分布，但仍然需要强化学习训练过程从训练数据中学习一种可以推广到测试提示的自我校正策略。

SCoRe 旨在解决上述关键挑战，其分为两个阶段，这两个阶段都是通过适当初始化模型和控制后续 RL 使模型偏向学习自我纠正。

具体而言，这两个阶段包括：

阶段 I：训练模型初始化以防止崩溃

SCoRe 第一阶段的目标是通过提高基础模型对第二次尝试响应的覆盖率来获得良好的模型初始化，以便后续自我纠正训练不会出现 STaR/SFT 中观察到的崩溃现象。

为了达到此目的，该研究不采用 SFT 来初始化 RL 训练，而是开发了第一阶段来产生不易崩溃的单独初始化。

作者微调基础模型，以便在第二次尝试时产生高奖励修正，同时通过使用 KL 散度将第一次尝试的响应分布限制为尽可能接近基础模型的响应分布，从而强制模型不改变其第一次尝试的响应。虽然这看起来不是最优的 —— 但第一次尝试的响应错误较少，可以纠正为更好的第二次尝试响应。优化的目标可以表示为：

其中 𝛽_2 是一个超参数，旨在仅在第一次尝试时强制执行严格的 KL 惩罚，以避免第一轮响应发生偏移（用蓝色项表示）。请注意，作者仍然使用公式 2 中的默认 KL 散度惩罚，但该惩罚的权重要小得多，并且为了简洁起见，公式 3 中省略了它。事实上，与简单的多轮 RL 不同，阶段 I 在分离两个响应方面更有效（图 5b）。

阶段 II：带有奖励的多轮强化学习

借助第一阶段的模型初始化，该模型在耦合两个响应时表现出更小的偏差，SCoRe 的第二阶段现在可以训练两次尝试的响应，并根据公式 1 优化奖励。当然，作者还希望确保在此过程中不会降低第一次尝试的响应。因此，对于两轮自我纠正问题，作者针对以下目标训练策略 𝜋_𝜃(⋅∣⋅)：

图 6 为阶段 I、阶段 II 流程说明。可以看出 SCoRe 以交错方式应用阶段 I 和 II 进行多次迭代。

实验评估

该研究进行了一系列实验，来验证 SCoRe 在教 LLM 具备自我纠正能力方面的有效性，并通过消融实验探索了 SCoRe 的每个组件的影响。

该研究主要关注数学和编码任务，使用以下基准来评估方法的有效性：

MATH；
MBPP 和 HumanEval。

几种方法在 MATH 基准上的实验评估结果如下表 3 所示：

在代码生成方面，实验结果如下表 4 所示：

消融研究

为了探究以下几个问题，该研究进行了消融实验：

多轮训练的重要性
多阶段训练的重要性
奖励函数设计（reward shaping）的影响
on-policy 强化学习的重要性

消融实验结果如下表 5 所示：

感兴趣的读者可以阅读论文原文，了解更多研究内容。

....

#ell

OpenAI前研究者发布提示词工程框架ell，升级版LangChain，支持版本控制和多模态

提示词工程不再玄学！

LLM 喜欢赞美，如果你在提示词中夸奖它是个「才华横溢的专家（genius expert）」，它就更可能为你生成更好的答案。

当然，OpenAI 的这位前研究科学家 William H. Guss 分享的这个技巧并不是新闻，之前就有不少研究者发现 AI 喜欢鼓励和赞美。

刚不久前，Huss 宣布发布了一款自称是「提示词工程的未来」工具 ell。具体来说，ell 是一款轻量级的函数式语言模型编程软件库，其优势包括自动化的版本控制和跟踪、丰富的本地开源视觉化工具、原生支持多模态数据。

项目地址：https://github.com/MadcowD/ell

该项目发布后反响热烈，网友们纷纷点赞。比如有一位网友表示一直在期待这样的工具，这将成为他构建 AI 软件栈的一个基础部分。

该项目上线一周时间就收获了 2600 多 star。

ell 的设计思路

ell 是一个轻量级的函数式提示词工程框架，其设计思路基于以下几项核心原则。

提示词是程序，而不只是字符串

提示词不只是字符串，也是发送给语言模型的代码。ell 的一个设计思路是将语言模型看作是名为「语言模型程序（LMP）」的离散子程序。

提示词实际上是 AI 模型的一种参数

这个观点并不新鲜，比如谷歌研究者 Heiko Hotz 就表示过一样的想法，参阅文章《还在人工炼丹？自动提示工程指南来了，还带从头实现》。

Huss 表示，提示词工程的执行过程涉及到多次迭代，这就类似于机器学习中的优化过程。由于这里将 LMP 视为函数，因此 ell 可为该过程提供丰富的工具。

ell 支持对提示词进行自动版本控制和序列化，这需要用到动态和静态分析以及 gpt-4o-mini 自动生成的 commit 消息。这个过程类似于机器学习训练流程中的检查点管理。但它无需任何特定的 IDE 或编辑器 —— 全都可通过常规的 Python 代码实现。

用于监控、版本控制和可视化的工具

一开始的时候，提示词工程看起来就像是一种玄学。但其实只要有合适的工具，玄学也能变成科学。

Ell Studio 是一种支持提示词版本控制、监控和可视化的本地开源工具。使用此工具，提示词优化的过程可以变得有迹可循，在有必要时也能很好地回溯到之前的版本。

关注多模态

我们关心的数据通常不止文本，还包括图像、音频、视频等，但使用 LLM 处理这些数据往往会更麻烦。Huss 希望在使用 LLM 时，我们能像使用文本一样轻松地使用多模态数据。

这也融合进了 ell 的设计理念。ell 支持多种形式的多模态输入和输出。

提示词工程师宝玉对这个项目给出了很好的总结：

如果你也正需要一个这样的提示词工程工具，那就赶紧：

pip install ell-ai

参考链接：

https://x.com/wgussml/status/1833615864131948756

https://x.com/dotey/status/1833967258592588017

....

#LongLLaVA

首个Mamba+Transformer混合架构多模态大模型来了，实现单卡千图推理

本文作者来自于香港中文大学深圳和深圳大数据研究院。其中第一作者为香港中文大学深圳博士生王熙栋和研究助理宋定杰，主要研究方向分别为医疗AGI和多模态学习；博士生陈舒年研究方向为多模态学习，博士生张辰研究方向为高效语言模型。通讯作者为香港中文大学深圳数据科学学院王本友教授。

扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

该团队将模型架构调整为 Mamba 和 Transformer 块的混合体，在数据构建中考虑多个图像之间的时间和空间依赖性，并采用渐进式训练策略。提出了首个混合架构多模态大语言模型 LongLLaVA，在效率和性能之间实现了更好的平衡。

LongLLaVA 不仅在各种基准测试中取得了有竞争力的结果，还保持了高吞吐量和低显存消耗，其可以在单个 A100 80GB GPU 上处理近千张图像，展现出了广阔的应用前景。

论文地址：https://arxiv.org/abs/2409.02889
项目地址：https://github.com/FreedomIntelligence/LongLLaVA

1. 简介

多模态大语言模型（MLLMs）的快速进步展示了它们在各个应用领域中的显著能力。然而，多图像理解场景仍然是一个重要但尚未充分探索的方面。特别是，将 MLLMs 的应用场景扩展到理解更长的视频、更高分辨率的图像以及基于更多历史信息的决策，对于提升用户体验和进一步拓展 MLLMs 的应用范围至关重要。

然而，将 MLLM 的上下文长度扩展以提高其可用性，面临着处理更多图像时性能下降和计算成本高昂的挑战。一些研究专注于构造包含多个图像的长上下文训练数据，以增强性能。其他研究探索了创新性的训练策略，以减轻性能下降。关于高计算成本的问题，LongVILA 通过降低通信成本在提高多节点效率方面取得了进展。然而，在管理更长的上下文时，加速计算这个问题本身仍有待解决。

为了解决上述挑战，该研究提出了 LongLLaVA 系统解决方案，采用混合架构进行加速。该解决方案在三个维度上进行了全面优化：多模态架构、数据构建和训练策略。

对于多模态架构，采用结合 Transformer 和 Mamba 的混合架构，并提出了一种高效图像表示方法，该方法对图像 Token 应用 2D 池化以降低计算成本同时保持性能。
对于数据构建，为不同的任务设计了独特的格式，使模型能够区分图像之间的时间和空间的依赖关系。
在训练策略方面，采用了一种三阶段的多模态自适应方法 —— 单图像对齐、单图像指令调整和多图像指令调整 —— 以逐步提升模型处理多模态长上下文的能力。

实验结果表明，LongLLaVA 在高效理解多模态长上下文方面表现卓越。它在VNBench的检索、计数和排序任务中领先，并在单张 80GB GPU 上对 1000 张图像进行大海捞针评估时达到了近 100% 的准确率。从保证研究可复现和促进社区发展出发，团队将开源所有与 LongLLaVA 相关的模型、代码和数据集。

2. LongLLaVA: 将 LLaVA 扩展到更长的上下文

为了解决上述挑战并提高模型对长文本和多图像场景的适应性，团队从三个角度进行了改进：多模态模型架构，数据构造和训练策略。

2.1 多模态架构

LongLLaVA 基于 LLaVA 的三个核心组件：视觉编码器、映射器和大语言模型。

视觉信息处理。团队使用 CLIP 作为视觉编码器来编码视觉信息，并采用两层 MLP 作为映射器，将视觉特征映射到适合 LLM 的文本嵌入空间。在映射之前，应用2D池化，有效地节省了训练和推理时间，同时保持了图像块之间的基本空间关系。

混合 LLM 架构。LongLLaVA 采用了一种混合 LLM 架构，将 Transformer 和 Mamba 层以 1:7 的比例集成，如图 2 所示。在每一层中还采用了混合专家（MoE）方法，使用 16 个专家，并为每个 Token 选择前两个专家。在层之间使用 RMSNorm 来增强归一化，但省略了位置嵌入。该模型集成了分组 Query 注意力（GQA）和 SwiGLU 激活函数，与其他大型语言模型相似。模型的总体参数数量为 530 亿，推理过程中的激活参数总数为 130 亿。

2.2 数据处理协议

为确保模型在多图像场景中有效地区分图像之间的时序和空间依赖关系，并在各种任务中表现良好，团队细致地区分了不同场景下的特殊字符。如图 3 所示，这些特殊字符全面处理了不同情境下图像之间的各种关系，从而增强了模型对不同任务的适应性。

常规单图和多图输入：使用 <img></img> 帮助模型区分图像和文本 Token 。
视频：在不同的帧之间添加 <t>，以表示它们之间的时间依赖性。
高分辨率图像：使用换行符 "\n" 来区分主图像与其子图像。对于子图像的排列，通过从左上角遍历到右下角的方式进行分割，在分割行之间添加"\n"以保留子图像的相对空间位置。

2.3 训练策略

团队逐步实现单模态和多模态的适配，将预训练语言模型转变为多模态长上下文模型。

纯文本指令微调。首先提升预训练语言模型在纯文本场景中遵循不同长度指令的能力。这是通过使用包含来自 Evol-instruct-GPT4、WildChat 和 LongAlign 的 278k 条纯文本条目的数据集实现的。

在多模态自适应方面，在 LLaVA 中 “单图像对齐” 和 “单图像指令微调” 阶段之后，团队引入了 “多图像指令微调” 阶段，逐步增强模型的多模态长上下文能力。采用渐进式训练不仅是为了更好地控制变量，也是为了增加模型的可重用性。具体的数据集使用情况如图 4 所示。

第一阶段：单图像对齐。这一阶段是为了将视觉模态特征与文本模态进行对齐。团队使用了 ALLaVA-Caption 和 ShareGPT4V 等数据集，这些数据集包含大约 600K 个高质量的图像 - 字幕对。在此阶段，仅训练映射器，同时冻结视觉编码器和 LLM 的参数。

第二阶段：单图像指令微调。这个阶段的目的是赋予模型多模态指令遵循能力。团队使用了 LLaVA-1.5 和 Manti-Single 等数据集，总共有约 932K 个高质量的问答对。在此过程中，只冻结了视觉编码器，而映射器和 LLM 部分进行训练。

第三阶段：多图像指令微调。在这一阶段，模型被训练以在多模态长文本场景中遵循指令。团队分别从 Mantis、VideoChat2 和 ShareGPT4Video 中采样 200K、200K 和 50K 数据项。为了保留模型的单图像理解和纯文本对话能力，团队将来自单图像指令微调和纯文本指令微调阶段的额外 200K 和 50K 数据项作为 Replay 部分。此外，为了提高模型解释复杂单图像（分割成多个子图像）的能力，团队从单图像指令微调阶段采样 50K 条数据，进行填充和分割，将原始图像分割成尺寸为 336x336 的子图像作为 SubImage 部分。

3. 评估结果

3.1 主要结果

如表 2 所示，LongLLaVA 在 MileBench 上表现出色，甚至超过了闭源模型Claude-3-Opus，尤其在检索任务方面表现出色。突显其在处理多图像任务方面的强大能力。

LongLLaVA 在涉及中等至长视频的任务中表现出色，超越了传统的视频模型，如 Video-LLaMA2 和 VideoChat2。在取得了这些令人印象深刻结果的同时，LongLLaVA 的 FLOPs 比其他模型少一个数量级。

3.2 长上下文大型语言模型的诊断评估

考虑到以前的评估不能充分捕捉 MLLM 在长语境下的能力，团队采用了一个新的诊断评估集 VNBench，以进一步分析模型在长语境下的原子能力。VNBench 是一个基于合成视频生成的长上下文诊断任务框架，包括检索、排序和计数等任务。

结果显示如表 3 所示，LongLLaVA 在跨语境检索、排序和技术能力等任务中的表现与领先的闭源模型相当，甚至在某些方面超过了 GPT-4V。在开源模型中，LongLLaVA 也展现出其卓越的性能。展示了 LongLLaVA 在管理和理解长上下文方面的先进能力。

3.3 消融实验

表 4 中显示，使用具有相同数据的混合 LLM 架构，在评估集中都观察到了显著的改进，证明了其在多模态场景中的潜力。对于 Token 压缩，选择了 2D 池化，这显著减少了计算负载，同时将性能下降控制在可接受范围内。与 1D 池化相比，2D 池化方法得到更好的结果。在数据构建方面，在训练团队的单图像数据后，模型在 SEEDBench 上的准确率提高了 1.5%，在 MileBench 上提高了 12.3%。随后的多图像训练使得 MileBench 上的准确率进一步提高了 7.4%，验证了数据集构建的有效性。

4. 更多分析

为了解 LongLLaVA 的内部工作原理和跨模态长文本处理能力，该团队进行了进一步分析。

4.1 关于混合架构的动机

团队探讨了不同架构在 ICL 能力和推理效率方面的优缺点，强调了混合架构的平衡优势。

ICL 分析。团队评估了在 VL-ICL 基准测试中对多模态情境学习中匹配图像任务的性能。该任务的输入包含一个图像对，输出表示是否存在特定的关系。MLLM 需要从示例中学习关系。如表 5 所示，混合架构和 Transformer 架构随着示例数量的增加表现出快速的性能提升，而 Mamba 架构的提升较少，证实了其在情境学习方面的不足。

效率分析。团队关注三个方面：预填充时间（首次推理延迟）、吞吐量（每秒生成的下一个 Token 数）和内存使用。团队将输入文本长度控制在 100K，并测量生成 1 个 Token 和 1000 个 Token 的输出所需的时间和最大内存使用。吞吐量计算为

。为了更好地模拟实际应用场景，使用 vLLM 框架和 Int8 量化评估了 Transformer 和混合架构。如表 5 所示，Mamba 架构具有最快的预填充时间，最高的吞吐量。与具有相似推理参数的 Transformer 架构相比，混合架构实现了 2.5 倍的吞吐量，75% 的预填充时间，并减少了内存使用。

4.2 图像数量的缩放定律

随着可处理图像数量的增加，模型能够支持更多图像块以进行高分辨率图像理解，以及使用更多视频帧进行视频理解。为了探索增加子图像和视频帧数量的影响，团队分别在 V* Bench 和 Video-MME 基准测试上评估了 LongLLaVA。

增加子图像数量。V* Bench 评估了一个模型在大型图像中定位小目标的能力。如图 5 所示，最初增加子图像的数量显著提高了模型性能，表明模型对图像细节的理解更好。然而，团队也发现，进一步增加子图像的数量略微降低了性能，这表明过多的子图像可能会干扰在此任务上的性能。

增加帧数规模。视频多模态编码器是一个测试模型从视频中提取信息能力的基准。从图 6 中可以看到，随着采样帧数的增加，模型在基准测试中的性能显著提高，当提取 256 帧时达到峰值。这表明模型能够有效地理解和利用额外采样帧中包含的信息，以提供更好的响应。

5. 进一步将图像数量扩大到 1000

利用 LongVA 中提出的 V-NIAH 评估框架，团队进行了 “大海捞针” 测试来评估模型性能。考虑到模型的训练序列长度限制为 40,960 个 token，采用 token 池化技术将原始 token 数量从 144 个减少到 36 个。这种调整能够高效地从大量数据集中检索相关信息。如图 7 所示，模型在 1000 张图像集上实现了近 100% 的检索准确率，而无需额外的训练。

然而，当增加测试图像数量超过 1,000 张时，团队观察到检索准确率下降。这种性能下降可能是因为超出了模型的训练序列长度，这可能会影响其保持更多图像准确性的能力。在未来的工作中团队将延长训练序列长度至 140,000 Token，即 LongLLaVA 进行单卡推理的极限长度，以进一步释放模型潜力。

6. 结论

LongLLaVA（长上下文大型语言和视觉助手）这一创新性混合架构模型，在长上下文多模态理解方面表现出色。该模型集成了 Mamba 和 Transformer 模块，利用多个图像之间的时空依赖性构建数据，并采用渐进式训练策略。

LongLLaVA 在各种基准测试中表现出竞争性的性能，同时确保了效率，为长上下文多模态大型语言模型（MLLMs）设定了新的标准。

....

#OpenAI o1的价值及意义

尽管多模态数据能够拓展大模型的感知能力，但提升认知能力，尤其是逻辑推理能力，才是提升大模型智力水平的关键

OpenAIo1是大模型的巨大进步

我觉得OpenAI o1是自GPT 4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比我想的要好，GPT 4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT 4o这种方向要重要得多，原因下面会分析。

为什么说o1比4o方向重要？这是两种不同的大模型发展思路，说实话在看到GPT 4o发布的时候我是有些失望的，我当时以为OpenAI会优先做o1这种方向，但是没想到先出了GPT 4o。GPT 4o本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题，对于提升大模型的智力水平估计帮助不大；而o1本质上是在探索大模型在AGI路上能走多远、天花板在哪里的问题，很明显第二个问题更重要。

GPT 4o的问题在于本身大模型的智力水平还不够高，所以做不了复杂任务，导致很多应用场景无法实用化，而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是不太可能的，尽管确实能拓展更丰富的多模态应用场景，但这类数据弥补的更多是大模型对外在多模态世界的感知能力，而不是认知能力。提升大模型认知能力主要还要靠LLM文本模型，而提升LLM模型认知能力的核心又在复杂逻辑推理能力。LLM的逻辑推理能力越强，则能解锁更多复杂应用，大模型应用的天花板就越高，所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情，没有之一。

如果o1模型能力越做越强，则可以反哺GPT 4o这种多模态大一统模型，可以通过直接用o1基座模型替换GPT 4o的基座、或者利用o1模型生成逻辑推理方面的合成数据增强GPT 4o、再或者用o1蒸馏GPT 4o模型….. 等等，能玩的花样应该有很多，都可以直接提升GPT 4o的复杂任务解决能力，从而解锁更复杂的多模态应用场景。OpenAI未来计划两条线，一条是o1，一条是GPT 4o，它的内在逻辑大概应该是这样的，就是说通过o1增强最重要的基座模型逻辑推理能力，而再把这种能力迁移到GPT 4o这种多模态通用模型上。

OpenAI o1的做法本质上是COT的自动化。我们知道，通过COT把一个复杂问题拆解成若干简单步骤，这有利于大模型解决复杂逻辑问题，但之前主要靠人工写COT来达成。从用户提出的问题形成树的根结点出发，最终走到给出正确答案，可以想像成类似AlphaGo下棋，形成了巨大的由COT具体步骤构成的树形搜索空间，这里COT的具体步骤的组合空间是巨大的，人写的COT未必最优。如果我们有大量逻辑数据，是由<问题，明确的正确答案>构成，则通过类似AlphaGo的Monte Carlo Tree Search（MCTS）搜索+强化学习，确实是可以训练大模型快速找到通向正确答案的COT路径的。而问题越复杂，则这个树的搜索空间越大，搜索复杂度越高，找到正确答案涉及到的COT步骤越多，则模型生成的COT就越复杂，体现在o1的速度越慢，生成的COT Token数越多。很明显，问题越复杂，o1自己生成的隐藏的COT越长，大模型推理成本越高，但效果最重要，成本其实不是问题，最近一年大模型推理成本降低速度奇快，这个总有办法快速降下去。

从上面o1的做法可以知道Prompt工程会逐渐消亡。之前解决复杂问题，需要人写非常复杂的Prompt，而o1本质上是COT等复杂Prompt的自动化，所以之后是不太需要用户自己构造复杂Prompt的。本来让用户写复杂Prompt就是不人性化的，所有复杂人工环节的自动化，这肯定是大势所趋。

Agent属于概念火但无法实用化的方向，主要原因就在于基座模型的复杂推理能力不够强。如果通过基座模型Plan把一个复杂任务分解为10个步骤，哪怕单个步骤的正确率高达95%，要想最后把任务做对，10个环节的准确率连乘下来，最终的正确率只有59%，惨不忍睹。那有了o1是不是这个方向就前途坦荡？也是也不是，o1的Model Card专门测试了Agent任务，对于简单和中等难度的Agent任务有明显提升，但是复杂的、环节多的任务准确率还是不太高。就是说，不是说有了o1 Agent就现状光明，但是很明显o1这种通过Self Play增强逻辑推理能力的方向应该还有很大的发展潜力，从这个角度讲说Agent未来前途光明问题应该不大。

OpenAI很多时候起到一个行业指路明灯的作用，往往是第一个证明某个方向是行得通的（比如ChatGPT、GPT 4、Sora、GPT 4o包括这次的o1），然后其他人开始疯狂往这个方向卷，到后来甚至卷的速度太快把OpenAI都甩到后面吃尾气。典型例子就是Sora，如果OpenAI不是出于阻击竞争对手秀一下肌肉，大家都没有意识到原来这个方向是可以走这么远的，但当意识到这一点后，只要你专一地卷一个方向，方向明确且资源聚焦，是可能赶超OpenAI的，目前国内外各种视频生成模型有些甚至可能已经比Sora好了，Sora至今仍然是期货状态，主要OpenAI想做的方向太多，资源分散导致分到具体一个方向的资源不够用，所以越往后发展期货状态的方向越多，也让人觉得尽显疲态。whaosoft开发板商城的ai设备可以进行测试哦

OpenAI o1等于给大家又指出了一个前景光明的方向，估计后面大家又开始都往这个方向卷。我觉得卷这个方向比去卷GPT 4o和视频生成要好，虽然具体怎么做的都不知道，但是大方向清楚且效果基本得到证明，过半年肯定头部几家都能摸清具体技术追上来，希望能再次让OpenAI吃尾气。而且这个方向看上去资源耗费应该不会特别大，偏向算法和数据一些，数据量规模估计不会特别巨大，卷起来貌似成本低一些。这是个卷的好方向。

预训练Scaling Law为何一定会变缓

粗分的话，大语言模型最基础的能力有三种：语言理解和表达能力、世界知识存储和查询能力以及逻辑推理能力（包括数学、Coding、推理等理科能力，这里Coding有一定的特殊性，是语言能力和逻辑掺杂在一起的混合能力，Coding从语言角度可以看成一种受限的自然语言，但是混杂着复杂的内在逻辑问题。从语言角度看，Coding貌似是容易解决的，从逻辑角度看又相对难解决。总之，Coding目前看是除了语言理解外，大模型做得最好的方向）。

语言理解和表达是LLM最强的能力，初版ChatGPT就可以完全胜任各种纯语言交流的任务，基本达到人类水准，目前即使是小模型，在这方面比大模型能力也不弱；世界知识能力虽说随着模型规模越大效果越好，但幻觉问题目前无法根治，这是制约各种应用的硬伤之一；逻辑推理能力一直都是LLM的弱项，也是最难提升的方面，从GPT 4开始往后，如何有效并大幅提升LLM的逻辑推理能力是体现不同大模型差异和优势的最核心问题。所以，大模型最重要的一个是世界知识方面如何有效消除幻觉，一个是如何大幅提升复杂逻辑推理能力。语言能力已不是问题。

从大模型的基础能力，我们再说回已经被谈滥了的大模型Scaling law。现在普遍认为通过增加数据和模型规模来提升大模型效果的Scaling law模式，其增长速度在放缓。其实我们对照下大模型的三个基础能力的能力来源，基本就能看出来这是为啥（以下是我猜的，不保真）：

本质上大模型的能力来源都来自训练数据，包含能体现这方面能力的训练数据越多，则这种能力越强。语言能力不用说了，任意一份预训练数据，其中都包含相当比例的语言的词法句法等成分，所以训练数据中体现语言能力的数据是最多的，这也是为何大模型的语言能力最强的原因。

而数据中包含的世界知识含量，基本是和训练数据量成正比的，明显数据量越多，包含的世界知识越多，Scaling law是数据中包含的世界知识含量关系的一个体现，但是这里有个问题，大模型见过越多数据，则新数据里面包含的新知识比例越小，因为很多知识在之前的数据里都见过了，所以随着数据规模增大，遇到的新知识比例就越低，在世界知识方面就体现出Scaling law的减缓现象。

而为啥逻辑推理能力最难提升？因为能体现这方面的自然数据（代码、数学题、物理题、科学论文等）在训练数据中比例太低，自然大模型就学不好，尽管通过不断增加数据，能增加逻辑推理方面数据的绝对数量，但因为占比太少，这方面提升的效果和增加的总体数据规模就不成比例，效果也不会太明显，就体现在逻辑推理能力Scaling law看上去的放缓。这是很自然的。这也是为何现在为了提高模型逻辑能力，往往在预训练阶段和Post-training阶段，大幅增加逻辑推理数据占比的原因，且是有成效的。

o1的RL有 Scaling Law吗？

所以目前大模型的核心能力提升，聚焦到不断通过合成数据等方式构造更多比例的逻辑推理数据上来。但是大部分逻辑推理数据的形式是<问题，正确答案>，缺了中间的详细推理步骤，而o1本质上是让大模型学会自动寻找从问题到正确答案的中间步骤，以此来增强复杂问题的解决能力。

OpenAI o1提到了关于RL在训练和推理时候的Scaling law，并指出这与预训练时候的Scaling law具有不同特性。很明显，如果o1走的是MCTS搜索技术路线，那么把COT拆分的越细（增加搜索树的深度），或提出更多的可能选择（节点的分支增多，就是说树的宽度越宽），则搜索空间越大，找到好COT路径可能性越大，效果越好，而训练和推理的时候需要算力肯定越大。看上去有着效果随着算力增长而增长的态势，也就是所谓的RL的Scaling law。这其实是树搜索本来应有之义，我倒觉得把这个称为RL的Scaling law有点名不副实。

....

#大模型算法岗常见面试题100道

本文提供了一份全面的大模型算法岗位面试题清单，包括基础理论、模型结构、训练微调策略、应用框架、分布式训练和模型推理等方面的知识点，旨在帮助求职者准备相关技术面试。

一、基础篇

1、目前主流的开源模型体系有哪些？

Transformer体系：由Google提出的Transformer 模型及其变体，如BERT、GPT 等。

PyTorch Lightning：一个基于PyTorch的轻量级深度学习框架，用于快速原型设计和实验。

TensorFlow Model Garden：TensorFlow官方提供的一系列预训练模型和模型架构。

Hugging Face Transformers：一个流行的开源库，提供了大量预训练模型和工具，用于NLP 任务。

2、prefix LM 和 causal LM 区别是什么?

prefix LM (前缀语言模型)：在输入序列的开头添加一个可学习的任务相关的前缀，然后使用这个前缀

和输入序列一起生成输出。这种方法可以引导模型生成适应特定任务的输出。

causal LM (因果语言模型)：也称为自回归语言模型，它根据之前生成的 token 预测下一个token。在

生成文本时，模型只能根据已经生成的部分生成后续部分，不能访问未来的信息。

3、涌现能力是啥原因?

涌现能力 (Emergent Ability) 是指模型在训练过程中突然表现出的新的、之前未曾预料到的能力。这种现象通常发生在大型模型中，原因是大型模型具有更高的表示能力和更多的参数，可以更好地捕捉数据中的模式和关联。

随着模型规模的增加，它们能够自动学习到更复杂、更抽象的概念和规律，从而展现出涌现能力。

4、大模型LLM的架构介绍?

大模型LLM(Large Language Models) 通常采用基于Transformer的架构。Transformer模型由多个编码器或解码器层组成，每个层包含多头自注意力机制和前馈神经网络。这些层可以并行处理输入序列中的所有位置，捕获长距离依赖关系。大模型通常具有数十亿甚至数千亿个参数，可以处理大量的文本数据，并在各种NLP任务中表现出色。

前馈神经网络 (Feedforward Neural Network) 是一种最基础的神经网络类型，它的信息流动是单向的，从输入层经过一个或多个隐藏层，最终到达输出层。在前馈神经网络中，神经元之间的连接不会形成闭环，这意味着信号在前向传播过程中不会回溯。前馈神经网络的基本组成单元是神经元，每个神经元都会对输入信号进行加权求和，然后通过一个激活函数产生输出。激活函数通常是非线性的，它决定了神经元的输出是否应该被激活，从而允许网络学习复杂和非线性的函数。

前馈神经网络在模式识别、函数逼近、分类、回归等多个领域都有应用。例如，在图像识别任务中，网络的输入层节点可能对应于图像的像素值，而输出层节点可能代表不同类别的概率分布。

训练前馈神经网络通常涉及反向传播 (Backpropagation) 算法，这是一种有效的学习算法，通过计算输出层的误差，并将这些误差信号沿网络反向传播，以调整连接权重。通过多次迭代这个过程，网络可以逐渐学习如何减少输出误差，从而实现对输入数据的正确分类或回归。

在设计和训练前馈神经网络时，需要考虑多个因素，包括网络的层数、每层的神经元数目、激活函数的选择、学习速率、正则化策略等，这些都对网络的性能有重要影响。

5、目前比较受欢迎的开源大模型有哪些?

GPT系列：由OpenAl开发的生成式预训练模型，如 GPT-3。

BERT系列：由Google开发的转换式预训练模型，如BERT、RoBERTa等。

T5系列：由Google开发的基于Transformer的编码器-解码器模型，如T5、mT5等。

6、目前大模型模型结构都有哪些?

Transformer：基于自注意力机制的模型，包括编码器、解码器和编码器-解码器结构。
GPT系列：基于自注意力机制的生成式预训练模型，采用解码器结构。
BERT系列：基于自注意力机制的转换式预训练模型，采用编码器结构。
T5系列：基于Transformer的编码器-解码器模型。

7、prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点?

prefix LM：通过在输入序列前添加可学习的任务相关前缀，引导模型生成适应特定任务的输出。优点是可以减少对预训练模型参数的修改，降低过拟合风险；缺点是可能受到前缀表示长度的限制，无法充分捕捉任务相关的信息。

causal LM：根据之前生成的 token预测下一个 token, 可以生成连贯的文本。优点是可以生成灵活的文本，适应各种生成任务；缺点是无法访问未来的信息，可能生成不一致或有误的内容。

encoder-decoder：由编码器和解码器组成，编码器将输入序列编码为固定长度的向量，解码器根据编码器的输出生成输出序列。优点是可以处理输入和输出序列不同长度的任务，如机器翻译；缺点是模型结构较为复杂，训练和推理计算量较大。

8、模型幻觉是什么?业内解决方案是什么?

模型幻觉是指模型在生成文本时产生的不准确、无关或虚构的信息。这通常发生在模型在缺乏足够信息的情况下进行推理或生成时。业内的解决方案包括：

使用更多的数据和更高质量的训练数据来提高模型的泛化和准确性。
引入外部知识源，如知识库或事实检查工具，以提供额外的信息和支持。
强化模型的推理能力和逻辑推理，使其能够更好地处理复杂问题和避免幻觉。

9、大模型的Tokenizer的实现方法及原理?

大模型的Tokenizer通常使用字节对编码 (Byte-Pair Encoding,BPE) 算法。BPE算法通过迭代地将最频繁出现的字节对合并成新的符号，来构建一个词汇表。在训练过程中，模型会学习这些符号的嵌入表示。Tokenizer将输入文本分割成符号序列，然后将其转换为模型可以处理的数字表示。

这种方法可以有效地处理大量文本数据，并减少词汇表的规模。

10、ChatGLM3的词表实现方法?

ChatGLM3 使用了一种改进的词表实现方法。它首先使用字节对编码 (BPE) 算法构建一个基本的词表，然后在训练过程中通过不断更新词表来引入新的词汇。具体来说，ChatGLM3 在训练过程中会根据输入数据动态地合并出现频率较高的字节对，从而形成新的词汇。这样可以有效地处理大量文本数据，并减少词汇表的规模。

同时，ChatGLM3 还使用了一种特殊的词表分割方法，将词表分为多个片段，并在训练过程中逐步更新这些片段，以提高模型的泛化能力和适应性。

11、GPT3、LLAMA、ChatGLM 的 Layer Normalization 的区别是什么?各自的优缺点是什么?

GPT3：采用了Post-Layer Normalization (后标准化)的结构，即先进行自注意力或前馈神经网络的计算，然后进行Layer Normalization。这种结构有助于稳定训练过程，提高模型性能。

LLAMA：采用了Pre-Layer Normalization (前标准化)的结构，即先进行Layer Normalization,然后进行自注意力或前馈神经网络的计算。这种结构有助于提高模型的泛化能力和鲁棒性。

ChatGLM：采用了Post-Layer Normalization的结构，类似于GPT3。这种结构可以提高模型的性能和稳定性。

12、大模型常用的激活函数有哪些？

ReLU（Rectified Linear Unit）：一种简单的激活函数，可以解决梯度消失问题，加快训练速度。

GeLU（Gaussian Error Linear Unit）：一种改进的ReLU函数，可以提供更好的性能和泛化能力。

Swish：一种自门控激活函数，可以提供非线性变换，并具有平滑和非单调的特性。

13、多查询注意力与群查询注意力是否了解?区别是什么?

Multi-query Attention 和 Grouped-query Attention 是两种不同的注意力机制变种，用于改进和扩展传统的自注意力机制。Multi-query Attention：在Multi-query Attention中，每个查询可以与多个键值对进行交互，从而捕捉更多的上下文信息。这种机制可以提高模型的表达能力和性能，特别是在处理长序列或复杂关系时。

Grouped-query Attention：在Grouped-query Attention中，查询被分成多个组，每个组内的查询与对应的键值对进行交互。这种机制可以减少计算复杂度，提高效率，同时仍然保持较好的性能。

14、多模态大模型是否有接触?落地案例?

多模态大模型是指可以处理和理解多种模态数据（如文本、图像、声音等）的模型。落地案例，例如：

OpenAI的DALL-E和GPT-3：DALL-E是一个可以生成图像的模型，而GPT-3可以处理和理解文本。两者结合可以实现基于文本描述生成图像的功能。

Google的Multimodal Transformer：这是一个可以同时处理文本和图像的模型，用于各种多模态任务，如图像字幕生成、视觉问答等。

二、进阶篇1、llama输入句子长度理论上可以无限长吗?

LLaMA（Large Language Model Adaptation）模型的输入句子长度受到硬件资源和模型设计的限制。

理论上，如果硬件资源足够，模型可以处理非常长的输入句子。然而，实际上，由于内存和处理能力的限制，输入句子长度通常是有限制的。在实际应用中，开发者会根据具体需求和硬件配置来确定合适的输入句子长度。

2、什么是LLMs复读机问题?

LLMs复读机问题是指在某些情况下，大型语言模型在生成文本时会重复之前已经生成的内容，导致生成的文本缺乏多样性和创造性。

3、为什么会出现LLMs复读机问题?

LLMs复读机问题可能由多种因素引起，包括模型训练数据中的重复模式、模型在处理长序列时的注意力机制失效、或者模型在生成文本时对过去信息的过度依赖等。

4、如何缓解LLMs复读机问题?

数据增强：通过增加训练数据的多样性和复杂性，减少重复模式的出现。

模型改进：改进模型的结构和注意力机制，使其更好地处理长序列和避免过度依赖过去信息。

生成策略：在生成文本时采用多样化的策略，如抽样生成或引入随机性，以增加生成文本的多样性。

5、什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型?

BERT模型通常用于需要理解文本深层语义的任务，如文本分类、命名实体识别等。

LLaMA和 ChatGLM类大模型则适用于需要生成文本或进行更复杂语言理解的任务，如对话系统、文本生成等。选择哪种模型取决于任务的需求和可用资源。

6、各个专业领域是否需要各自的大模型来服务?

不同的专业领域需要特定的大模型来更好地服务。专业领域的大模型可以针对特定领域的语言和知识进行优化，提供更准确和相关的回答和生成文本。

7、如何让大模型处理更长的文本?

使用模型架构，如Transformer, 它可以有效地处理长序列。
使用内存机制，如外部记忆或缓存，来存储和检索长文本中的信息。
使用分块方法，将长文本分割成更小的部分，然后分别处理这些部分。
大模型参数微调、训练、推理

8、如果想要在某个模型基础上做全参数微调，究竟需要多少显存?

全参数微调 (Full Fine-Tuning) 通常需要大量的显存，因为这种方法涉及到更新模型的所有参数。

显存的需求取决于模型的规模、批量大小、以及使用的硬件。例如，对于大型模型如GPT- 3,可能需要多个GPU甚至TPU来分配显存，每个GPU或TPU可能需要几十GB的显存。在实际操作中，需要进行试错法来确定合适的批量大小和硬件配置。

9、为什么SFT之后感觉LLM傻了?

SFT（Supervised Fine-Tuning）之后感觉LLM（Large Language Model）“傻了”，可能是因为微调过程中出现了以下问题：

过拟合：模型可能过度适应训练数据，导致在新数据上的泛化能力下降。
数据质量：如果训练数据质量不高，模型可能学到了错误的模式或偏见。
微调强度：微调的强度可能不够，导致模型没有充分适应新的任务。在这种情况下，模型可能没有学习到足够的特定领域的知识，因此在执行相关任务时表现不佳。

10、SFT指令微调数据如何构建?

收集或生成与特定任务相关的指令和数据对，其中指令是描述任务或要求的文本，数据是对应的输入输出示例。
清洗和预处理数据，以确保数据的质量和一致性。
根据任务需求，对数据进行增强，如使用数据增强技术生成更多的训练样本。
将数据格式化为模型训练所需的格式，例如，对于语言模型，通常需要将文本转化为模型可以理解的数字编码。

11、领域模型Continue PreTrain数据选取?

领域模型继续预训练（Continue Pre-Training）的数据选取应该基于领域内的文本特点和应用需求。通常，需要选取大量、高质量、多样化的领域文本数据。数据可以来自专业文献、行业报告、在线论坛、新闻文章等。数据选取时应该注意避免偏见和不平衡，确保数据能够全面地代表领域内的知识和语言使用。

12、领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力?

多任务学习：在训练过程中同时包含领域内和通用的任务，使模型能够同时学习领域特定的和通用的知识。
控制微调强度：通过调整微调的学习率或训练轮数来控制模型对领域数据的适应程度。
定期回炉：在领域数据训练后，定期使用通用数据进行回炉训练，以保持模型的通用能力。
知识蒸馏：使用一个预训练的通用模型来指导领域模型，帮助模型保持通用知识。

13、领域模型Continue PreTrain，如何让模型在预训练过程中就学习到更多的知识?

数据增强：使用数据增强技术如回译、掩码语言模型等来生成更多的训练样本。
知识注入：将领域特定的知识以文本、结构化数据或知识图谱的形式注入到预训练过程中。
多模态学习：如果适用，可以使用多模态数据(如文本和图像)进行预训练，以丰富模型的知识表示。

14、进行SFT操作的时候，基座模型选用Chat还是Base?

在进行指令微调 (SFT) 操作时，选择基座模型 (Chat或Base) 取决于具体任务的需求和模型的性能。通常，如果任务需要生成对话或交互式响应，可以选择对话优化的模型 (Chat)。如果任务更注重理解和生成文本的能力，可以选择基础模型 (Base)。

在实际应用中，可能需要根据实验结果和模型性能来选择最合适的基座模型。

15、领域模型微调指令&数据输入格式要求?

领域模型微调的指令和数据输入格式要求取决于所使用的模型和框架。一般来说，指令应该是清晰、具体的，能够指导模型完成特定的任务。数据输入格式通常需要与模型的输入接口相匹配，例如，对于文本模型，数据通常需要是字符串格式，并且可能需要经过特定的预处理，如分词、编码等。

16、领域模型微调领域评测集构建?

构建领域模型微调的领域评测集时，应该确保评测集能够全面、准确地反映领域内的任务需求和性能指标。通常，需要从领域内的真实数据中收集或生成评测样本，并确保样本的多样性和代表性。此外，可以根据任务需求设计定制的评价指标，以评估模型在领域内的性能。

17、领域模型词表扩增是不是有必要的?

领域模型词表扩增通常是有必要的，尤其是当领域内有大量的专业术语或特定词汇时。词表扩增可以帮助模型更好地理解和生成领域内的文本，提高模型的领域适应性。然而，词表扩增也需要谨慎进行，以避免引入过多的噪音或不相关的词汇。

18、如何训练自己的大模型?

1.选择合适的预训练目标和任务：确定模型将学习哪些通用的语言知识，以及针对哪些特定任务进行优化。

2.收集和准备数据：收集大量、多样化的数据，包括通用数据和特定领域的数据，进行清洗和预处理。

3.选择模型架构：选择一个适合的模型架构，如Transformer, 并确定模型的规模和层数。

4.定义训练流程：设置训练参数，如学习率、批量大小、训练轮数等，并选择合适的优化器和损失函数。

5.训练模型：使用准备好的数据和训练流程开始训练模型，监控训练过程中的性能和资源使用。

6.评估和调优：在训练过程中定期评估模型的性能，并根据需要调整训练参数和模型架构。

7.微调和优化：在模型达到一定的性能后，进行微调以适应特定的应用场景和任务需求。

19、训练中文大模型有啥经验?

使用大量高质量的中文数据，包括文本、对话、新闻、社交媒体帖子等。

考虑语言的特点，如词序、语法结构、多义性等，并设计相应的预训练任务。

使用适合中文的语言模型架构，如BERT 或GPT, 并进行适当的调整以优化性能。

考虑中文的特殊字符和标点，确保模型能够正确处理这些字符。

进行多任务学习，同时训练多个相关任务，以提高模型的泛化能力。

20、指令微调的好处?

提高模型在特定任务上的性能，使其能够更好地理解和执行指令。

通过指令和示例数据的结合，使模型能够学习到更具体、更实用的知识。

减少了模型对大规模标注数据的依赖，通过少量的指令和示例数据就能进行有效的微调。

可以通过不同的指令和示例数据组合，快速适应不同的任务和应用场景。

21、预训练和微调哪个阶段注入知识的?

在预训练阶段，模型通过大量的无监督数据学习通用的语言知识和模式。在微调阶段，模型通过与特定任务相关的监督数据学习特定领域的知识和任务特定的模式。因此，知识注入主要发生在微调阶段。

22、想让模型学习某领域或行业知识，是应该预训练还是应该微调?

为了让模型学习某个领域或行业的知识，通常建议先进行预训练，以学习通用的语言知识和模式。预训练可以帮助模型建立强大的语言表示，并提高模型的泛化能力。

然后，可以通过微调来注入特定领域或行业的知识，使模型能够更好地适应特定的任务和应用场景。

23、多轮对话任务如何微调模型?

收集多轮对话数据，包括用户查询、系统回复、以及可能的中间交互。对数据进行预处理，如分词、编码等，使其适合模型输入格式。

设计多轮对话的微调目标，如序列到序列学习、生成式对话等。

微调模型，使其能够生成连贯、自然的对话回复，并考虑到对话上下文和用户意图。

24、微调后的模型出现能力劣化，灾难性遗忘是怎么回事?

微调后的模型出现能力劣化，灾难性遗忘可能是因为模型在微调过程中学习到了过多的特定任务的知识，而忽略了通用的语言知识。这可能导致模型在训练数据上表现良好，但在未见过的数据上表现不佳。

为了解决这个问题，可以采取一些措施，如多任务学习、控制微调强度、定期使用通用数据进行回炉训练等。

25、微调模型需要多大显存?

微调模型需要的显存取决于模型的规模、任务复杂度、数据量等因素。一般来说，微调模型需要的显存通常比预训练模型少，因为微调涉及到更新的参数较少。然而，具体需要的显存仍然需要根据实际情况进行评估和调整。

26、大模型LLM进行SFT操作的时候在学习什么?

特定领域的语言模式和知识，包括专业术语、行业特定用语等。

针对特定任务的生成策略和响应模式。

对话上下文中的连贯性和逻辑性，对于多轮对话任务尤其重要。

指令理解和执行能力，使模型能够更准确地理解和执行用户的指令。

27、预训练和SFT操作有什么不同?

预训练和SFT操作的主要区别在于目标和数据集。预训练通常是在大规模的无标签数据集上进行的，目的是让模型学习到通用的语言表示和模式。这个过程不需要人工标注数据，而是通过模型自己从数据中学习。

SFT则是在有标签的数据集上进行的，目的是让模型适应特定的任务或领域。这个过程需要人工标注数据，以确保模型能够学习到正确的任务特定的模式和知识。

28、样本量规模增大，训练出现OOM报错，怎么解决?

当样本量规模增大时，训练出现OOM (Out of Memory) 错误可能是由于显存不足导致的。为了解决这个问题，可以尝试以下方法：

增加训练设备的显存，如使用更高性能的GPU或增加GPU数量。

调整批量大小，减少每次训练时处理的样本数量。

使用模型并行或数据并行技术，将模型或数据分片到多个设备上进行训练。

使用动态批处理，根据可用显存动态调整批量大小。

29、大模型LLM进行SFT如何对样本进行优化?

数据增强：通过对原始数据进行转换，如文本回译、添加噪声等，生成更多的训练样本。样本选择：选择与特定任务最相关的样本进行训练，以提高训练效率和性能。

样本权重：根据样本的难易程度或重要性为样本分配不同的权重，以优化训练过程。

平衡采样：在训练过程中，确保每个类别或子任务都有足够的样本被训练到。

30、模型参数迭代实验步骤?

模型参数迭代实验是指在训练过程中，对模型的参数进行迭代调整和优化，以提高模型的性能。这通常涉及以下步骤：

选择一组初始参数。

在训练过程中，定期评估模型的性能。

根据评估结果，调整模型的参数，如学习率、批量大小、正则化参数等。

重复评估和调整参数，直到模型的性能达到预期的目标。

31、为什么需要进行参选微调?参数微调的原因有哪些?

参数微调是指只对模型的一部分参数进行更新，以适应特定的任务或领域。进行参数微调的原因包括：

提高计算效率：参数微调通常比全量微调需要更少的计算资源，因为只有部分参数需要更新。

减少过拟合风险：只更新与特定任务相关的参数，可以减少模型对训练数据的过度依赖，降低过拟合的风险。

提高泛化能力：参数微调可以使模型在保持通用语言能力的同时，适应特定的任务需求。

32、模型参数微调的方式有那些?你最常用哪些方法?

权重共享：在模型中，将部分参数设置为共享，这些参数同时用于多个任务或领域。

参数掩码：在模型中，将部分参数设置为不可训练，这些参数保持预训练时的值不变。

参数分解：将大型的参数矩阵分解为多个小型矩阵，只更新其中的部分矩阵。

参数共享微调：在模型中，将部分参数设置为共享，这些参数用于多个相关任务。

33、prompt tuning 和 prefix tuning在微调上的区别是什么?

Prompt Tuning和Prefix Tuning都是参数高效的微调方法，它们通过在模型输入中添加特定的提示或前缀来引导模型生成适应特定任务的输出。区别在于：

Prompt Tuning：在输入序列的末尾添加可学习的提示，提示可以是几个单词或短语，用于指导模型生成特定的输出。

Prefix Tuning：在输入序列的开头添加可学习的连续前缀表示，前缀表示包含了任务特定的信息，用于引导模型生成适应特定任务的输出。

34、LLaMA-adapter 如何实现稳定训练?

LLaMA-adapter 是一种参数高效的微调方法，它通过在预训练模型的每个Transformer层中添加小型适配器模块来实现特定任务的适应。为了实现稳定训练，可以采取以下措施：适配器初始化：使用预训练模型的参数作为适配器模块的初始化，以保持模型的稳定性。

适配器正则化：使用正则化技术，如权重衰减或dropout, 来减少适配器模块的过拟合风险。

逐步学习：逐步调整适配器模块的参数，避免参数更新的幅度过大。

适配器优化：选择合适的优化器和训练策略，如使用较小的学习率、较长的训练周期等，以实现稳定的训练过程。

35、LoRA原理与使用技巧有那些?

LoRA（Low-Rank Adaptation）是一种参数高效的微调方法，它通过引入低秩分解来减少需要更新的参数数量。LoRA 的工作原理是将预训练模型的注意力矩阵或前馈网络矩阵分解为两个低秩矩阵的乘积，其中这两个低秩矩阵被视为可学习的任务特定参数。

使用LoRA的技巧包括：

适配器初始化：使用预训练模型的参数作为LoRA适配器模块的初始化，以保持模型的稳定性。

低秩分解：选择合适的低秩分解方法，如奇异值分解 (SVD) 或随机矩阵分解，以实现低秩分解。

逐步学习：逐步调整LoRA适配器模块的参数，避免参数更新的幅度过大。

适配器正则化：使用正则化技术，如权重衰减或dropout, 来减少LoRA适配器模块的过拟合风险。

35、LoRA微调优点是什么?

参数高效：LoRA只更新少量的低秩矩阵，相比全量微调，可以显著减少需要更新的参数数量。

计算效率：由于只更新少量的低秩矩阵，LoRA可以减少计算资源的需求，提高训练和推理的效率。

模型稳定性：LoRA适配器模块可以保持预训练模型的稳定性，减少过拟合风险。

性能提升：LoRA 微调可以在不牺牲太多性能的情况下实现参数高效的微调。

36、AdaLoRA的思路是怎么样的?

AdaLoRA是一种自适应的LoRA方法，它可以根据任务的需求和模型的性能动态调整LoRA适配器模块的参数。AdaLoRA的思路是：

初始化LoRA适配器模块的参数，使用预训练模型的参数作为初始化。

在训练过程中，根据模型的性能和任务需求，动态调整LoRA适配器模块的参数。

通过调整LoRA适配器模块的参数，使模型能够更好地适应特定的任务需求。

37、LoRA权重合入chatglm模型的方法?

在chatGLM 模型的每个Transformer层中添加LoRA 适配器模块。

使用预训练模型的参数作为LoRA 适配器模块的初始化。

在训练过程中，更新LoRA 适配器模块的参数，以适应特定的任务需求。

保持预训练模型的参数不变，避免对预训练模型产生负面影响。

38、P-tuning 讲一下?与P-tuning v2区别在哪里?优点与缺点?

P-tuning是一种参数高效的微调方法，它通过在模型输入中添加可学习的连续前缀来引导模型生成适应特定任务的输出。P-tuning v2是P-tuning的改进版本，它使用了更多的连续前缀表示来引导模型生成适应特定任务的输出。

P-tuning与P-tuning v2的区别在于：

P-tuning：在输入序列的开头添加一个可学习的连续前缀，前缀的长度较短。

P-tuning v2：在输入序列的开头添加多个可学习的连续前缀，前缀的长度较长。

P-tuning的优点是参数高效，计算资源需求较低，可以快速实现模型微调。P-tuning的缺点是可能受到前缀表示长度的限制，无法充分捕捉任务相关的信息。P-tuning v2通过使用更多的连续前缀，可以更充分地捕捉任务相关的信息，但可能需要更多的计算资源来更新多个前缀的参数。

38、预训练和SFT操作有什么不同?

39、训练一个通用大模型的流程有那些?

数据收集：收集大量的、多样化的、无标签的文本数据。

数据预处理：对收集的数据进行清洗、分词、编码等预处理步骤。

模型设计：选择合适的模型架构，如Transformer,并确定模型的规模和层数。预训练目标：设计预训练任务，如语言建模、掩码语言模型、句子对齐等。

训练模型：使用预训练数据集和预训练目标开始训练模型。

评估性能：在预训练过程中定期评估模型的性能，并根据需要调整训练参数。

微调和优化：在预训练完成后，使用有标签的数据集进行微调，以适应特定的任务或领域。

40、DDO 与 DPO 的区别是什么?

DDO（Dual Data Objectives）和DPO（Dual Prompt Objectives）是两种不同的训练策略，用于提高大型语言模型的性能。

DDO: 在训练过程中，同时优化两个数据集的目标，一个是通用数据集，另一个是特定领域数据集。这样可以让模型同时学习通用知识和特定领域的知识，提高模型的泛化能力和领域适应性。

DPO: 在训练过程中，同时使用两个提示 (prompt), 一个是通用提示，另一个是特定领域提示。这样可以让模型在执行任务时，同时利用通用知识和特定领域的知识，提高模型在特定任务上的性能。

41、是否接触过 embeding 模型的微调方法?

嵌入模型微调通常涉及调整模型中的嵌入层，以适应特定的任务或领域。这可能包括：初始化：使用特定领域的数据来初始化嵌入层，以便更好地捕捉领域特定的信息。

调整：通过训练或优化嵌入层的参数，使其能够适应特定任务或领域的需求。

知识注入：将领域特定的知识以向量的形式注入到嵌入层中，以增强模型对领域知识的理解和应用。

42、有哪些省内存的大语言模型训练/微调/推理方法?

模型剪枝：通过移除模型中的冗余结构和参数，减少模型的内存占用。

知识蒸馏：使用一个大型教师模型来指导一个小型学生模型，使学生模型能够学习到教师模型的知识，同时减少内存占用。

量化：将模型的权重和激活从浮点数转换为低精度整数，减少模型的内存占用和计算需求。

模型并行：将大型模型分割到多个设备上进行训练和推理，减少单个设备的内存需求。

数据并行：将训练数据分割到多个设备上，每个设备训练模型的一个副本，减少单个设备的内存需求。

动态批处理：根据可用内存动态调整批量大小，以适应内存限制。

43、大模型 (LLMs) 评测有那些方法?如何衡量大模型的效果?

大模型 (LLMs) 的评测方法通常包括：

准确性：评估模型在特定任务上的预测准确性。

泛化能力：评估模型在未见过的数据上的表现。

计算效率：评估模型训练和推理的速度和资源需求。

安全性：评估模型在对抗性输入下的稳定性和鲁棒性。

多样性和创造性：评估模型生成文本的多样性和创造性。

人类评估：通过人工评估来衡量模型的性能，特别是在对话和生成任务中。

衡量大模型效果的方法包括：

自动评估指标：使用如BLEU 、ROUGE 、METEOR等自动评估指标来衡量模型的语言生成和理解能力。

任务特定的指标：使用任务特定的指标来衡量模型在特定任务上的性能，如准确率、F1分数等。

用户反馈：收集用户对模型生成内容的反馈，以评估模型的实际应用效果。

44、如何解决三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢问题?

减少训练数据量：如果训练数据量过大，可以考虑减少数据量，以加快训练速度。

优化训练流程：优化训练流程，如使用更高效的训练算法、调整训练参数等，以加快训练速度。

并行训练：使用多GPU 或多服务器并行训练模型，以加快训练速度。

提前停止：在训练过程中，如果模型性能不再提高，可以提前停止训练，以节省时间。

知识蒸馏：使用一个大型教师模型来指导一个小型学生模型，使学生模型能够快速学习到教师模型的知识。

45、模型训练的数据集问题：一般数据集哪里找?

公开数据集：许多研究机构和组织会发布公开数据集，如IMDb 、Wikipedia 、Common Crawl等。

特定领域数据集：针对特定领域的数据集，如医疗、金融、法律等，通常需要从相关的专业文献、报告、论坛等渠道获取。

合成数据：通过自动化或半自动化方法生成数据，如文本合成、数据增强等。

用户生成数据：通过众包、调查、游戏等方式收集用户生成的数据。

商业数据：从商业公司或服务中获取数据，通常需要遵守相关的数据使用协议和隐私政策。

46、为什么需要进行模型量化及原理?

模型量化是将模型中的权重和激活从高精度浮点数转换为低精度整数(如INT8、INT4、FP16等)的过程，目的是减少模型的大小、提高计算效率并降低内存需求。

模型量化的原理在于，低精度数值格式可以提供足够的精度来保持模型性能，同时显著减少数值的位数，从而减少存储和计算资源的使用。

47、大模型词表扩充的方法及工具?

大模型词表扩充的方法包括：

新增词汇：手动添加领域特定的术语和词汇到词表中。

数据驱动：通过分析大量文本数据自动识别和添加高频出现的词汇。

词汇映射：将特定领域的词汇映射到现有的词表中，或者创建新的词汇条目。

工具方面，一些流行的词表管理工具和库包括：

Hugging Face Transformers：提供了一个预训练模型和词表管理的接口。

SentencePiece：一个用于构建词汇表的工具，支持BPE 和其他子词分割方法。

Moses：一个开源的自然语言处理工具，包括用于词表构建和分词的工具。

48、大模型应用框架及其功能?

大模型应用框架提供了一组工具和库，用于构建、训练和部署大型语言模型。这些框架通常包括以下功能：

模型加载和保存：支持加载预训练模型和保存微调后的模型。

数据处理：提供数据预处理、分词、编码等工具。

模型训练：支持模型训练、评估和调试。

模型部署：支持将模型部署到不同的环境和平台，如服务器、移动设备等。

API接口：提供模型预测的API接口，方便集成到其他应用中。

一些流行的大模型应用框架包括：

Hugging Face Transformers：一个流行的NLP 研究工具，提供了大量预训练模型和工具。

PyTorch：一个开源的深度学习框架，支持大型语言模型的训练和部署。

TensorFlow：另一个流行的深度学习框架，也支持大型语言模型的训练和部署。

49、搭建大模型应用遇到过那些问题？如何解决的？

搭建大模型应用时可能会遇到以下问题：

资源限制：计算资源不足，如显存不足、计算时间受限等。

模型稳定性：模型在训练或部署过程中出现不稳定的行为。

数据质量：训练数据质量不高，导致模型性能不佳。

模型部署：将模型部署到生产环境中的技术挑战。

解决这些问题的方法可能包括：

资源优化：使用更高效的训练算法、调整训练参数、使用模型并行或数据并行技术。模型调试：使用

调试工具和技术来分析模型行为，找出问题的根源。

数据处理：进行数据清洗、增强和预处理，以提高数据质量。

部署策略：选择合适的部署策略，如使用模型压缩技术、优化模型结构等。

50、如何提升大模型的检索效果?

优化索引：使用更高效的索引结构，如倒排索引、BM25等。

特征工程：提取和利用有效的特征，如文本向量、词频等。

模型选择：选择合适的检索模型，如基于向量的相似度计算、基于排序的模型等。

训练策略：使用训练策略，如多任务学习、知识蒸馏等，来提高模型的性能。

评估指标：使用更准确的评估指标，如MAP、NDCG等，来衡量检索效果。

51、是否了解上下文压缩方法?

上下文压缩是一种减少模型参数数量和计算复杂度的技术，同时尽量保持模型的性能。这种方法通常涉及：

模型剪枝：移除模型中的冗余结构和参数。

知识蒸馏：使用一个大型教师模型来指导一个小型学生模型，使学生模型能够学习到教师模型的知识。

权重共享：在模型中，将部分参数设置为共享，这些参数同时用于多个任务或领域。

低秩分解：将大型参数矩阵分解为多个小型矩阵，只更新其中的部分矩阵。

52、如何实现窗口上下文检索?

窗口上下文检索是一种在给定文本片段的上下文中检索相关信息的方法。实现窗口上下文检索通常涉及以下步骤：

文本分块：将长文本分割成多个较小的文本块，这些文本块被称为窗口。

索引构建：为每个文本块构建索引，以便快速检索相关信息。

查询处理：将查询文本与索引中的文本块进行匹配，找到与查询最相关的文本块。

上下文检索：在找到的相关文本块中，检索与查询相关的信息。这可能涉及到计算文本块与查询的相似度，并根据相似度排序文本块。结果生成：根据检索结果生成答案或摘要。

53、开源的 RAG 框架有哪些，你比较了解?

RAG(Retrieval-Augmented Generation) 是一种结合了检索和生成的框架，用于提高大型语言模型生成文本的质量和相关性。开源的RAG 框架包括：

Hugging Face's RAG:一个结合了检索增强生成的开源框架，支持多种任务，如文本生成、摘要等。

Google's Retrieval-Augmented Generator(RAG)TensorFlow实现：一个基于TensorFlow的RAG实现，用于支持大规模的文本生成任务。

Microsoft's RAG: 一个结合了检索和生成的框架，用于支持多轮对话和知识密集型任务。

54、大模型应用框架 LangChain 和 Llamalndex 各自的优势有那些?

LangChain和Llamalndex是大模型应用框架，它们提供了构建、训练和部署大型语言模型的工具和库。这些框架的优势包括：

易用性：提供了一组易于使用的工具和库，简化了大模型应用的开发和部署过程。

灵活性：支持多种模型架构和任务，能够适应不同的应用场景和需求。

高效性：提供了高效的训练和推理算法，减少了计算资源的需求。

集成性：与其他工具和框架具有良好的集成，如数据处理、模型评估等。

社区支持：拥有活跃的社区，提供了大量的教程、文档和讨论，帮助用户解决问题和提高技能。

55、向量库有那些?各自优点与区别?

TensorFlow: 一个开源的深度学习框架，提供了向量操作和计算的支持。

PyTorch: 另一个流行的深度学习框架，也提供了向量操作和计算的支持。

NumPy: 一个用于数值计算的Python库，提供了向量操作和矩阵运算的支持。

SciPy: 基于NumPy的Python库，提供了用于科学计算的向量操作和函数。

这些向量库的优点包括：

高效性：提供了高效的向量操作和矩阵运算，能够快速处理大规模数据。

灵活性：支持多种数据类型和操作，能够适应不同的应用场景和需求。

社区支持：拥有活跃的社区，提供了大量的教程、文档和讨论，帮助用户解决问题和提高技能。

区别在于它们的设计哲学、API接口和使用场景。例如， TensorFlow和PyTorch都是深度学习框架，提

供了全面的神经网络构建和训练功能，而NumPy 和SciPy更专注于数值计算和科学计算。

56、向量数据库有那些?各自优点与区别?

向量数据库是一种数据库，专门设计用于存储和查询向量数据，常用于机器学习和数据科学领域。向量数据库可以高效地处理高维空间数据的相似性搜索，这在图像识别、文本搜索、推荐系统等应用中非常重要。以下是一些流行的向量数据库及其优缺点：

Milvus

优点：Milvus 是一个开源的向量数据库，支持多种类型的向量索引，如IVF、HNSW、Flat 等。它提供了可扩展的架构，可以处理大量数据，并支持云原生部署。

缺点：由于是较新的项目，社区和文档可能不如一些老牌数据库成熟。

Faiss

优点：Faiss 是由FacebookAl团队开发的高效相似性搜索和密集向量聚类库。它提供了多种向量索引算法，性能极高。

缺点：作为一个库而不是完整的数据库系统，Faiss 不提供完整的数据管理功能，需要用户自己集成到应用中。

Vespa

优点：Vespa 是由Yahoo开发的一个高性能分布式数据存储和查询系统，支持向量相似性搜索和实时数据摄入。

缺点：Vespa的配置和使用相对复杂，可能需要较深的系统知识。

Pinecone

优点：Pinecone 是一个托管的向量数据库服务，易于设置和使用，提供了强大的相似性搜索功能。

缺点：作为一个商业服务，Pinecone的成本可能比开源解决方案要高。

Weaviate

优点：Weaviate 是一个开源的向量搜索引擎，支持多种数据类型，包括文本、图像和向量，并提供了易于使用的RESTAPI。

缺点：相对于其他一些解决方案，Weaviate 可能还不够成熟，社区较小。

57、使用外部知识数据库时需要对文档进行分块，如何科学的设置文档块的大小?

查询需求：根据查询的需求和上下文长度来确定文档块的大小。

检索效率：较小的文档块可以提高检索效率，但过小的块可能导致信息的碎片化。

存储和计算资源：考虑存储和计算资源的需求，确定文档块的大小以平衡效率和资源使用。

用户体验：确保文档块的大小适合用户的阅读和理解需求。

一种科学的方法是进行实验和评估，通过比较不同文档块大小对检索效果、效率和用户体验的影响，来确定最佳的分块大小。

58、LLMs 受到上下文长度的限制，如果检索到的文档带有太多噪声，该如何解决这样的问题?

上下文修剪：使用摘要或摘要生成技术来提取文档的关键部分，减少噪声。

知识蒸馏：使用一个大型教师模型来指导一个小型学生模型，使学生模型能够学习到教师模型的知识，从而提高模型的鲁棒性。

过滤和去噪：使用文本过滤和去噪技术，如文本清洗、去重、去除无关信息等，来减少噪声。

强化学习：通过强化学习训练模型，使其能够自动识别和忽略噪声信息，专注于相关和有用的信息。

数据增强：通过对原始数据进行转换，如文本回译(将文本翻译成另一种语言再翻译回来)、添加噪声等，生成更多的训练样本，从而提高模型对噪声的鲁棒性。

知识蒸馏是一种模型压缩技术，其中一个大型的、表现良好的模型(教师模型)被用来训练一个小型的模型(学生模型)。这个过程涉及到将教师模型的知识转移到学生模型中，通常通过模仿教师模型的输出或中间层的表示。学生模型因此能够学习到如何处理噪声，同时保持较小的模型大小，这有助于在有限的上下文长度内工作。

59、RAG(检索增强生成)对于大模型来说，有什么好处?

提高生成质量：通过结合检索到的相关信息， RAG 可以帮助大型语言模型生成更准确、更相关和更高质量的文本。

增强上下文关联性：检索到的信息可以为模型提供更多的上下文信息，使生成的文本更加符合上下文语境。

提高模型鲁棒性：通过结合检索到的信息，模型可以更好地处理不完整或噪声的输入，提高模型的鲁棒性。

减少训练数据需求：RAG 可以通过检索相关信息来增强模型的知识，从而减少对大规模标注数据的依赖。

提高模型泛化能力：RAG 可以帮助模型学习到更广泛的知识，提高模型的泛化能力，使其能够更好地适应不同的任务和领域。

60、Self-attention的公式及参数量？为什么用多头？为什么要除以根号d？

Self-attention 模型在对当前位置的信息进行编码时，会过度的将注意力集中于自身的位置，因此作者提出了通过多头注意力机制来解决这一问题。同时，使用多头注意力机制还能够给予注意力层的输出包含有不同子空间中的编码表示信息，从而增强模型的表达能力。

这是因为点积的数量级增长很大，因此将 softmax 函数推向了梯度极小的区域。

Self-attention (自注意力)机制是Transformer模型的核心组成部分，它允许模型在处理序列数据时，为序列中的每个元素(如词或标记)分配不同的注意力权重，从而捕捉序列内的依赖关系。

Self-attention的基本公式如下：

计算Query（Q）、Key（K）和Value（V）:

这些矩阵是通过将输入序列的嵌入（或隐藏状态）与三个不同的权重矩阵（Wq、Wk、Wv）相乘得到的。这三个权重矩阵是模型需要学习的参数。

Q=XWqK=XWk

V=X*Wv

其中，X 是输入序列的嵌入矩阵，维度为，N 是序列长度，D 是嵌入维度。

计算注意力得分：

使用Query 和Key计算注意力得分，这反映了序列中每个元素对其他元素的重要性。

得分=Q*K^T

应用softmax函数：

将得分通过sofrmax函数转换为概率分布，确保所有注意力权重的总和为1。

概率分布=softmax(得分/ √D)

计算加权的Value:

将Value与softmax得到的概率分布相乘，得到加权后的Valuc,这是考虑了序列中其他元素的上下文信息的新表示。

加权Value=概率分布*V

输出：

将加权Value相加，得到最终的输出，这是序列中每个元素的上下文表示。

输出=加权Value之和

参数量的计算：

每个权重矩阵 (Wq、Wk、Wv) 的参数量为，因此总共有3个权重矩阵，参数量为。

——

为什么用多头 (Multi-Head) 注意力：

多头注意力允许模型在不同的表示子空间中学习信息，这样可以让模型同时关注不同的信息维度。每个头学习到的信息可以独立地编码输入序列的不同方面，然后将这些信息综合起来，得到更丰富的表示。

为什么要除以根号D:

将得分除以根号D（得分归一化）可以防止内积过大导致softmax函数梯度变得非常小，这有助于数值稳定性，使得学习过程更加稳定。此外，它还可以看作是一种缩放因子，帮助模型在不同维度上保持一致的性能。

三、大模型 (LLMs)LangChain什么是LangChain?

LangChain是一个用于构建和运行大型语言模型应用的开源框架。它提供了一套工具和组件，帮助开发者将大型语言模型（如 GPT-3）与其他工具和API结合，以完成更复杂的任务。

1、LangChain包含哪些核心概念?

Components:可重用的模块，例如API调用、数据库查询等。

Chains:将多个Components链接在一起以完成特定任务的流程。

Prompt Templates: 用于指导语言模型生成输出的文本模板。

Output Parsers:解析语言模型输出的工具。

Indexes and Retrievers: 用于存储和检索信息的索引和数据检索器。

Agents and Toolkits:提供特定领域功能的代理和工具集。

2、什么是LangChain Agent?

LangChain Agent是一种可以执行一系列操作以完成复杂任务的程序。它可以根据给定的输入和上下文，选择合适的工具和策略来生成响应或执行操作。

3、如何使用LangChain?

定义Components: 创建或集成各种API和工具。

构建Chains: 将Components组合成完成特定任务的流程。

设置Prompt Templates: 定义用于指导语言模型的文本模板。

配置Output Parsers: 解析和提取语言模型的输出。

部署和运行：将构建的应用部署到服务器或云平台，并进行测试和优化。

4、LangChain支持哪些功能?

集成和调用外部API。

查询和操作数据库。

文本生成和编辑。

信息检索和问答。

多步骤任务执行和决策。

5、什么是 LangChain model?

LangChain model指的是在LangChain框架中使用的大型语言模型，如GPT-3或类似的模型。这些模型

通常用于生成文本、回答问题或执行特定的语言任务。

6、LangChain包含哪些特点?

开源和可扩展：易于集成和扩展新功能。

模块化和可重用：Components和Chains可以重用和组合。灵活和可定制：可以自定义Prompt Templates和Output Parsers。

支持多种语言模型：可以集成和使用不同的语言模型。

7、LangChain 如何使用?

定义Components: 创建或集成各种API 和工具。

构建Chains: 将Components组合成完成特定任务的流程。

设置Prompt Templates:定义用于指导语言模型的文本模板。

配置Output Parsers: 解析和提取语言模型的输出。

部署和运行：将构建的应用部署到服务器或云平台，并进行测试和优化。

8、LangChain 存在哪些问题及方法方案?

低效的令牌使用问题：可以通过优化Prompt Templates和减少不必要的API调用来解决。

文档的问题：可以通过改进文档和提供更多的示例来帮助开发者理解和使用LangChain。

太多概念容易混淆：可以通过提供更清晰的解释和更直观的API设计来解决。

行为不一致并且隐藏细节问题：可以通过提供更一致和透明的API和行为来解决。

缺乏标准的可互操作数据类型问题：可以通过定义和使用标准的数据格式和协议来解决。

低效的令牌使用问题：

在语言模型应用中，令牌是模型处理文本的单位，通常与成本挂钩。如果Prompt Templates设计不当或API调用频繁，可能会导致令牌的浪费，增加成本。

解决方案：优化Prompt Templates, 确保它们尽可能高效地传达信息，减少冗余。同时，减少不必要的

API调用，例如通过批量处理数据或合并多个请求。

文档的问题：

如果LangChain的文档不清晰或不完整，开发者可能难以理解如何使用框架，或者可能无法充分利用其功能。

解决方案：改进文档的质量，提供详细的API参考、教程和最佳实践指南。增加更多的示例代码和应用场景，帮助开发者更快地上手。

太多概念容易混淆：

LangChain可能引入了许多新的概念和抽象，对于新用户来说，这可能难以理解和区分。

解决方案：提供清晰的解释和定义，使用户能够理解每个概念的目的和作用。设计更直观的API，使其易于理解和使用。

行为不一致并且隐藏细节问题：

如果API的行为不一致，开发者可能难以预测其结果，这会导致错误和混淆。隐藏细节可能会让开发者难以调试和优化他们的应用。

解决方案：确保API的行为一致，并提供清晰的错误消息和文档。避免隐藏太多细节，而是提供适当的抽象级别，同时允许高级用户访问底层实现。

缺乏标准的可互操作数据类型问题：

如果LangChain没有定义和使用标准的数据格式和协议，那么在不同的系统和服务之间进行数据交换可能会很困难。

解决方案：定义和使用标准的数据格式(如JSON、CSV)和协议(如REST、gRPC)，以确保不同组件和服务之间的互操作性。

9、LangChain 替代方案?

LangChain的替代方案包括其他用于构建和运行大型语言模型应用的开源框架，例如HuggingFace的Transformers库、OpenAl的GPT-3AP1等。

10、LangChain中Components and Chains是什么?

Components是可重用的模块，例如API调用、数据库查询等。Chains是将多个Components链接在一起以完成特定任务的流程。

11、LangChain中Prompt Templates and Values是什么?

Prompt Templates是用于指导语言模型生成输出的文本模板。Values是填充Prompt Templates中的变量的实际值。

12、LangChain中 Example Selectors 是什么?

Example Selectors是从一组示例中选择一个或多个示例的工具。它们可以用于提供上下文或示例，以帮助语言模型生成更准确的输出。

上下文关联：当模型需要根据特定的上下文或场景生成回答时，Example Selectors可以帮助选择与当前上下文最相关的示例。

数据过滤：在处理大量数据时， Example Selectors可以根据特定的标准和条件过滤数据，以便模型仅处理最相关的信息。

个性化回答：Example Selectors可以根据用户的需求和偏好选择示例，从而生成更加个性化的回答。

13、LangChain中Output Parsers 是什么?

Output Parsers是解析和提取语言模型输出的工具。它们可以将语言模型的输出转换为更结构化和有用的形式。

14、LangChain 中 Indexes and Retrievers 是什么?

Indexes and Retrievers是用于存储和检索信息的索引和数据检索器。它们可以用于提供上下文或从大量数据中检索相关信息。

15、LangChain中 Chat Message History 是什么?

Chat Message History是存储和跟踪聊天消息历史的工具。它可以用于维护对话的上下文，以便在多轮对话中提供连贯的向应。

16、LangChain 中 Agents and Toolkits 是什么?

Agents and Toolkits是提供特定领域功能的代理和工具集。Agents是一系列可以执行的操作，而Toolkits 则是为这些操作提供接口和实现的工具集合。

17、LangChain 如何调用LLMs 生成回复?

LangChain通过定义好的Prompt Templates向LLMs 发送指令，LLMs 根据这些指令生成文本回复。

LangChain还可以使用Output Parsers来解析和格式化LLMs 的输出。

18、LangChain 如何修改提示模板?

在LangChain中，可以通过修改Prompt Templates的文本内容或变量来定制提示。

19、LangChain 如何链接多个组件处理一个特定的下游任务?

LangChain通过构建Chains来链接多个Components。每个Component执行一个特定的任务，然后将输出传递给链中的下一个Component, 直到完成整个任务。

20、LangChain 如何Embedding&vector store?

LangChain可以使用嵌入函数将文本数据转换为向量，并将这些向量存储在向量存储库中。这样做的目的是为了能够高效地检索和查询文本数据。

四、大模型分布式训练1、大模型进行训练，用的是什么框架?

TensorFlow是一个由Google开发的开源机器学习框架，它提供了强大的分布式训练功能。

TensorFlow支持数据并行、模型并行和分布式策略等多种分布式训练方法。PyTorch是一个由Facebook的Al研究团队开发的流行的开源机器学习库。它提供了分布式包（torch.distributed），支持分布式训练，并且可以通过使用torch.nn.parallel.DistributedDataParallel（DDP）或torch.nn.DataParallel来实现数据并行。

Horovod是由Uber开源的分布式训练框架，它基于MPI（Message Passing Interface）并提供了一种

简单的方法来并行化TensorFlow 、Keras 、PyTorch和Apache MXNet等框架的训练。Horovod特别适合于大规模的深度学习模型训练。

Ray是一个开源的分布式框架，用于构建和运行分布式应用程序。Ray提供了Ray Tune（用于超参数调优）和Ray Serve（用于模型服务），并且可以与TensorFlow、PyTorch和MXNet等深度学习库集成。

Hugging Face的Accelerate库是为了简化PyTorch模型的分布式训练而设计的。它提供了一个简单的API来启动分布式训练，并支持使用单个或多个GPU 以及TPU。

DeepSpeed是微软开发的一个开源库，用于加速PyTorch模型的训练。它提供了各种优化技术，如ZeRO（Zero Redundancy Optimizer）和模型并行性，以支持大规模模型的训练。

2、业内常用的分布式AI框架?

Horovod：由Uber开发，基于MPI的分布式训练框架。

Ray：用于构建和运行分布式应用程序的开放源代码框架。

DeepSpeed：由微软开发，用于加速深度学习训练的库，它提供了数据并行、张量并行和模型并行等多种并行策略。

FairScale：由Facebook开发，提供了类似于DeepSpeed的功能。

3、数据并行、张量并行、流水线并行的原理及区别?

数据并行：在数据并行中，模型的不同副本在不同的设备上运行，每个设备处理输入数据的不同部分。每个设备独立地进行前向传播和反向传播，但参数更新是同步的。数据并行的主要优点是简单且易于实现。

张量并行：在张量并行中，模型的单个层或参数被切分成多个部分，每个部分在不同的设备上运行。

张量并行通常用于训练非常大型的模型，因为它可以减少每个设备的内存需求。

流水线并行：在流水线并行中，模型的不同层被放置在不同的设备上，每个设备负责模型的一部分。

输入数据在设备之间按顺序流动，每个设备完成自己的计算后将数据传递给下一个设备。流水线并行可以减少每个设备的内存需求，并提高训练速度。

4、推理优化技术Flash Attention的作用是什么?

Flash Attention是一种用于加速自然语言处理模型中自注意力机制的推理过程的优化技术。它通过减少计算量和内存需求，使得在有限的资源下能够处理更长的序列。Flash Attention使用了一种有效的矩阵乘法算法，可以在不牺牲准确性的情况下提高推理速度。

5、推理优化技术Paged Attention的作用是什么?

Paged Attention是一种用于处理长序列的优化技术。它将注意力矩阵分页，使得只有当前页的注意力分数被计算和存储，从而大大减少了内存需求。这种方法可以在不增加计算成本的情况下处理比内存容量更大的序列。

Flash Attention是一种高效的注意力机制实现，旨在提高大规模模型训练的速度和内存效率。它通过减少GPU 内存使用和增加计算吞吐量来实现这一点。

Flash Attention 利用 GPU 上的特定优化，如共享张量核心和高效的内存使用，以减少内存占用并提高计算速度。这种方法特别适用于具有长序列和大型模型参数的场景，例如自然语言处理和推荐系统。

Paged Attention是一种用于处理超长序列的注意力机制。在标准的注意力机制中，序列的长度受到GPU内存的限制。

Paged Attention 通过将序列分割成多个较小的部分(页面)来克服这个问题，只将当前需要计算的部分加载到内存中。这种方法允许模型处理比单个GPU 内存更大的序列，同时保持较高的计算效率。

Paged Attention 对于需要处理极长序列的应用场景(例如长文档处理、音频处理等)非常有用。

6、CPU-offload，ZeRO-offload了解?

CPU-offload：在深度学习训练中，将一些计算或数据从GPU 转移到CPU 上，以减轻GPU 的负担。这通常用于减少GPU 内存使用，提高GPU 利用率。

ZeRO-offload：是DeepSpeed中的一种优化技术，它将模型的参数、梯度和优化器状态分散存储在CPU内存或NVMe存储中，从而减少GPU内存的使用。

ZeRO-offload是ZeRO（零冗余优化器）策略的一部分，旨在提高训练大规模模型的能力。

7、ZeRO，零冗余优化器的三个阶段?

ZeRO-Stage 1：将优化器状态分割到不同设备上，减少内存占用。

ZeRO-Stage 2：除了优化器状态，还将模型参数分割到不同设备上。

ZeRO-Stage 3：将梯度和优化器状态也分割到不同设备上，实现最大的内存节省。

8、混合精度训练的优点是什么?可能带来什么问题?

优点：混合精度训练使用不同精度（例如， FP16和FP32）的数字来执行计算，可以提高训练速度，减少内存使用，并可能减少能源消耗。它利用了现代GPU 对FP16运算的支持，同时使用FP32进行关键的计算，以保持准确性。

可能的问题：混合精度训练可能会导致数值不稳定，特别是在模型梯度非常小或非常大时。此外，它可能需要额外的校准步骤来确保FP16计算的准确性。

9、Megatron-DeepSpeed 方法?

Megatron-DeepSpeed是结合了Megatron-LM和DeepSpeed的技术，用于训练超大型语言模型。它利用了Megatron-LM的模型并行技术和DeepSpeed的数据并行和优化器技术，以实现高效的训练。

10、Megatron-LM 方法?

Megatron-LM是一种由NVIDIA 开发的用于训练大规模语言模型的模型并行技术。它通过将模型的不同部分分布在多个GPU 上，以及使用张量并行和流水线并行等技术，来减少每个GPU 的内存需求，并提高训练速度。Megatron-LM 已经成功训练了数十亿参数的语言模型。

11、DeepSpeed 方法?

DeepSpeed是一个开源的库，由微软开发，用于加速大规模模型训练。DeepSpeed 通过多种技术实现了这一点，包括：

数据并行：通过在不同的GPU上分配不同的数据批次，来并行处理数据，从而加速训练过程。

模型并行：通过在不同的GPU 上分配模型的各个部分，来并行处理模型，从而可以训练更大的模型。

管道并行：通过将模型的不同层分配到不同的 GPU 上，并在这些 GPU 之间创建数据流管道，来进一步加速训练过程。

优化器并行：通过将模型的参数分为多个部分，并在不同的 GPU 上并行计算每个部分的梯度更新，来加速优化器步骤。

零冗余优化器（ZeRO）：通过将模型的参数、梯度和优化器状态分割存储在多个GPU上，并消除冗余存储，来减少内存使用并提高训练效率。

五、大模型（LLMs）推理1、为什么大模型推理时显存涨的那么多还一直占着?

模型大小：大模型本身具有更多的参数和计算需求，这直接导致了显存的增加。推理过程中的激活和梯度：在推理时，模型的前向传播会产生激活，这些激活需要存储在显存中，尤其是在执行动态计算或需要中间结果的情况下。

优化器状态：即使是在推理模式下，某些框架可能会默认加载优化器状态，这也会占用显存空间。

内存泄漏：有时代码中的内存泄漏会导致显存一直被占用，而不是在推理完成后释放。

要解决显存占用问题，可以采用的技术包括使用内存分析工具来检测泄漏，优化模型结构，或者使用如TensorFlow 的内存管理功能来显式释放不再需要的内存。

2、大模型在GPU和CPU上推理速度如何?

大模型在GPU 上的推理速度通常远快于CPU, 因为GPU 专门为并行计算设计，具有更多的计算核心和更高的浮点运算能力。例如，NVIDIA的GPU使用CUDA核心，可以同时处理多个任务，这使得它们在执行深度学习推理时非常高效。

CPU虽然也可以执行深度学习推理任务，但由于其核心数量和浮点运算能力通常不及GPU, 因此速度会慢得多。然而， CPU 在处理单线程任务时可能更高效，且在某些特定场景下，如边缘计算设备上，CPU 可能是唯一可用的计算资源。

3、推理速度上， int8和fp16比起来怎么样?

INT8（8位整数）和FP16（16 位浮点数）都是低精度格式，用于减少模型的大小和提高推理速度。

INT8 提供更高的压缩比，可以显著减少模型的内存占用和带宽需求，但由于量化过程中的信息损失，可能会对模型的准确性产生一定影响。FP16提供比INT8 更高的精度，通常对模型的准确性影响较小，但相比INT16或FP32, 它的速度和内存效率仍然有所提高。

在实际应用中， INT8和FP16的推理速度取决于具体的模型和硬件。一般来说，INT8可能会提供更高的吞吐量，但FP16可能会提供更好的延迟和准确性。例如，NVIDIA 的Tensor Cores支持FP16和INT8 运算，可以显著提高这两种格式的推理性能。

4、大模型有推理能力吗?

大模型 (LLMs) 具有推理能力。推理能力不仅限于回答事实性问题，还包括理解复杂语境、生成连贯文本、执行文本分类、翻译等任务。例如，GPT-3是一个大模型，它能够生成文章、故事、诗歌，甚至编写代码。

5、大模型生成时的参数怎么设置?

大模型生成时的参数设置取决于具体的任务和模型。一些常见的参数包括：温度 (Temperature): 控制生成的文本的随机性。较低的温度值将导致生成更保守的文本，而较高的温度值将导致更多样化的文本。

Top-k采样：仅从概率最高的k个词中采样，以减少生成文本的随机性。

Top-p采样：从累积概率超过p的词中进行采样，这有助于生成更相关的文本。

最大生成长度：指定生成文本的最大长度。

例如，使用GPT-3生成文本时，可以设置温度为0.7,top-k为50,最大生成长度为100个词。

6、有哪些省内存的大语言模型训练/微调/推理方法?

模型并行：将模型的不同部分分布在多个设备上。

张量切片：将模型的权重和激活分割成较小的块。

混合精度训练：使用FP16 和INT8精度进行训练和推理。

优化器状态分割：如ZeRO技术，将优化器状态分割到不同设备上。

梯度累积：通过累积多个批次的梯度来减少每个批次的内存需求。

在机器学习中，优化器状态是指在训练模型时优化器所维护的关于模型参数更新的额外信息。这些信息对于执行梯度下降算法的变体（如Adam、RMSprop、SGD 等）至关重要，因为它们帮助优化器更有效地调整模型参数。

优化器状态通常包括以下几个关键组件：

梯度：在反向传播过程中计算的权重参数的梯度，指示了损失函数相对于每个参数的斜率。

动量：某些优化器（如SGD with Momentum、Adam等）会使用动量来平滑参数更新，这可以帮助优化器在相关方向上加速学习，并减少震荡。

平方梯度：某些优化器（如RMSprop、Adam）会保存每个参数梯度的平方的移动平均，这有助于调整学习率并稳定训练过程。

学习率：优化器可能会根据训练的进度或某些其他信号调整每个参数的学习率。

其他统计量：某些优化器可能会使用其他统计量，如Adam优化器会维护梯度的一阶和二阶矩的估计。

优化器状态对于实现高效的参数更新至关重要。在训练过程中，优化器会根据这些状态信息来计算每个迭代步骤中参数的更新量。在分布式训练设置中，如DeepSpeed中的ZeRO 优化器，优化器状态的

管理变得尤为重要，因为它们需要跨多个GPU 或节点高效地分配和同步。

7、如何让大模型输出合规化?

过滤不当内容：使用内容过滤器来识别和过滤掉不当的语言或敏感内容。

指导性提示：提供明确的提示，指导模型生成符合特定标准和偏好的输出。

后处理：对模型的输出进行后处理，例如使用语法检查器和修正工具来提高文本的质量。

强化学习：使用强化学习来训练模型，使其偏好生成符合特定标准的输出。

应用模式变更：应用模式变更是指在部署模型时，根据实际应用的需求和环境，对模型的配置、部署策略或使用方式进行调整。例如，一个在云端运行的模型可能需要调整其资源分配以适应不同的负载，或者在边缘设备上运行的模型可能需要减少其内存和计算需求以适应有限的资源。

应用模式变更可能包括：

资源调整：根据需求增加或减少用于运行模型的计算资源。

模型压缩：使用模型压缩技术如剪枝、量化来减少模型大小。

动态部署：根据负载动态地扩展或缩小模型服务的实例数量。

缓存策略：实施缓存机制来存储常用查询的响应，减少重复计算的次数。

性能优化：对模型进行性能分析，并优化其运行效率，例如通过批处理输入数据来提高吞吐量。

举例来说，如果一个大型语言模型在云平台上运行，当用户查询量增加时，可以通过增加服务器的数量或使用更高效的硬件来扩展其能力。相反，如果模型需要在嵌入式设备上运行，可能需要将模型压缩到更小的尺寸，并优化其运行时的内存使用，以确保模型可以在资源有限的设备上顺利运行。

在实际操作中，应用模式变更通常需要综合考虑模型的性能、成本、可扩展性和业务需求，以找到最佳的平衡点。

....

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Claude Code 进行“从头重写”的项目 Claw Code全面介绍（claw-code）

Claw-code是一个基于泄露的Claude Code进行重写的开源项目，专注于构建智能体运行时框架。该项目采用Python优先实现与Rust移植并行的策略，强调洁净室开发模式而非直接使用泄露代码。主要特点包括：模块化架构设计、清晰的移植进度追踪、完整的测试框架和工程化工具链。项目提供了丰富的CLI命令用于系统自省和模拟运行时行为，并通过QueryEngine实现会话状态管理。Rust工作区则致

2048 AI社区

AI编程|2小时开发 10000 用户量的小程序

2048 AI社区

智能体学习6——反思（Reflection）

摘要：反思是AI系统的自我质检机制，通过生成-批评-修订的循环迭代提升输出质量。核心解决传统AI的幻觉、逻辑跳跃等问题，提供四种反思范式：自我批评、多视角评估、置信度验证和结果模拟。实施时需关注五个策略（即时/增量/回顾/比较/协作反思）和六个评估维度（正确性/完整性等）。最佳实践包括结构化prompt、分级反思和收敛条件设置，需警惕确认偏误和过度反思陷阱。反思模式可与其他设计模式结合，形成AI