51c大模型~合集101
此外,该模块引入了轻量化的算子,避免了冗余计算,在大规模数据集上也能保持较高的计算效率。然而,这些都是折中的办法。然而,与静态图相比,动态图因节点和边的动态演变特性,给数据分析带来了更大的挑战,尤其是在异常检测方面。该项目做了一个框架,利用这个框架,可以方便地用不同的底座模型+不同的指令数据集进行大模型的微调,不足的地方是,只提供了使用Lora的训练方式。除此之外,该项目主打一个思维链 (CoT)
我自己的原文哦~ https://blog.51cto.com/whaosoft/13020028
#审视Tokenization
从2019年到现在,是时候重新审视Tokenization了
2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗?来自 HuggingFace 的一篇文章给出了解释。
「9.9 和 9.11 到底哪个大?」这个问题一度难坏了各家大模型。
关于模型为什么会答错,研究人员给出了各种猜测,包括预训练数据的构成和模型架构本身。
在一篇新博客中,来自 HuggingFace 的研究者讨论了可能造成这一问题的原因之一 ——tokenization,并重点分析了它如何影响模型的数学能力,尤其是算术能力。
回顾 Tokenization
早在 2019 年,GPT-2 论文就详细介绍了将 BPE(byte-pair encoding)用于语言模型的 tokenization 方法。此方法的工作原理是将频繁出现的子词合并为单个单元,直到词汇量达到目标大小。
然而,这种做法生成的词汇表在很大程度上取决于输入到 tokenizer 中的训练数据,从而导致了在数字编码方式上的不一致性。例如,在训练数据中常见的数字(例如 1-100、1943 年这样的表示)很可能被表示为单个 token,而较少见到的数字则被拆分成多个 token,如下所示:

四年后,Llama 系列来了!Llama 和 Llama 2 使用 SentencePiece (一个用于基于文本生成的无监督文本 tokenizer )的 BPE 实现,并对数字进行了显著的调整:它们将所有数字拆分为单个数字。这意味着只有 10 个唯一 token(0-9)来表示任何数字,从而简化了 LLM 的数字表示。Deepseek 后来发布了一个模型 (DeepSeek-V2),它有一个类似的单位数(single-digit)的 tokenizer 。
后来,Llama 3 采用了不同的方法来处理数字,将它们 tokenizing 为三位数。因此,从 1 到 999 的数字每个数都有唯一的 token,而从 1000 开始的数字由这些 token 组成。
一个新的范式:从右到左的 Tokenization
到目前为止,我们所看到的 tokenization 方法都是从左到右处理文本的。例如,如果三位数字的分词法遇到序列 12345,它将从开头扫描,将其分解为 123 和 45 这样的片段。
与从左到右(L2R)的分词方法不同,从右到左(R2L)的分词方法以三个字符为一组,从文本的末尾开始向开头处理。使用 R2L 分词,序列 12345 将通过从右侧扫描进行分词,首先分割出 345,然后再处理 12。最近,一些前沿的闭源模型也在探索使用这种 R2L 分词方法,这已经被证明对某些算术运算有益,因为 R2L 表示可以防止操作数的错位。还有传言称 Claude 使用了这种 R2L 分词方法。
为了更好地理解错位是什么样子的,让我们以 3789 + 8791 为例:

如上所示,在三位数从左到右(L2R)的例子中,9 + 1 应该映射到数字 0,但实际上却与 8 组合在一起形成了 80,因为前面的三个 token(125)已经被分在一起了。tokenization 边界的偏移在学习过程中引入了额外的复杂性,已经证明准确性是有害的。
而在从右到左(R2L)的例子中,数字 580 和对应的子操作数 789 和 791 很好地对齐了。
以下是用于处理数字 tokenization 的技术概述:

不同方法的比较
该研究旨在比较多个 tokenizer 以及它们处理数字的不同方式,以尽量减少模型架构、训练配置和预训练数据等外部因素在评估结果中的影响。因此,每个模型之间唯一的区别应该是 tokenizer。
实验选择了 3 种 tokenizer,分别是 GPT-2 的 BPE tokenizer、Llama 3 的三位数 tokenizer(three-digit tokenizer)和 Deepseek 的单位数 tokenizer(single-digit tokenizer)。
from transformers import AutoTokenizer
from tokenizers import pre_tokenizers, Regex
# Initialize all tokenizers
tokenizer = AutoTokenizer.from_pretrained ("meta-llama/Meta-Llama-3-8B")
# Add an extra step to the existing pre-tokenizer steps
tokenizer._tokenizer.pre_tokenizer = pre_tokenizers.Sequence (
[
# Added step: split by R2L digits
pre_tokenizers.Split (pattern = Regex (r"\d {1,3}(?=(\d {3})*\b)"),
behavior="isolated", invert = False),
# Below: Existing steps from Llama 3's tokenizer
pre_tokenizers.Split (pattern=Regex (r"(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p {L}\p {N}]?\p {L}+|\p {N}{1,3}| ?[^\s\p {L}\p {N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+"),
behavior="isolated", invert=False),
pre_tokenizers.ByteLevel (add_prefix_space=False, trim_offsets=True, use_regex=False)
]
)
print (tokenizer.tokenize ("42069")) # [42, 069]
训练模型使用了原始的 Llama 架构,此外,该研究还调整了隐藏层的数量,以确保每个模型大致具有相同数量的参数(约 14.5 亿)。

为了保持恒定的计算预算,本文减少了具有更大词汇表模型中的隐藏层数量。
结果
算术问题
如下图所示,单位数 tokenization 优于其他 tokenizer 方法。



结果显示,虽然在较简单的问题上差异不太明显,但随着问题复杂性的增加,表现最佳的 tokenizer(单位数分词)与其他 tokenizer 之间的差距越来越大。这表明单位数分词对于输入数据长度的变化更为鲁棒,并且能够更好地捕捉复杂的模式,从而在其他分词方法难以应对的场景中提升性能。
此外,本文还发现浮点数和整数之间的性能差距在所有 tokenizer 中都是相似的。这表明在这两个类别中选择 tokenizer 时,并不存在固有的权衡,即对于整数最优的 tokenizer 对于浮点数也是最优的。
如下图所示,三位数 R2L tokenization 比标准三位数 L2R tokenization 具有更好的性能。

本文发现,与使用默认 L2R token 数据进行训练相比,使用 R2L token 数据进行训练的模型取得了显著的改进(乘法除外)。这表明,与典型的从左到右编码相比,它是算术运算的最佳设置。
当数字被从右向左每 3 位一组进行分块时,Pure-BPE(Byte Pair Encoding)tokenizer 显示出不一致的性能。

显然,没有任何额外数字预处理的纯基于 BPE 的 tokenizer 不会从使用 R2L token 化中受益。一个可能的解释是,这些 tokenizer 中数字分组的方式缺乏结构。
基于单词的问题

虽然在基于单词的问题上,不同 tokenizer 之间的性能差距不太明显,但本文观察到单位数 tokenizer 和三位数 tokenizer 通常优于基于 BPE 的 tokenizer。这表明,无论是单词问题还是数字问题,这种趋势都是一致的。
Llama 3 R2L 推理
接下来本文进行了另一项测试,即现有的预训练 / 指令模型在接受与最初训练方案不同的 token 化方案时表现如何,而无需重新训练或微调。因此,本文基于 Llama3 8B Instruct 模型,并使用上述相同的代码修改其 tokenizer,以在推理期间执行 R2L tokenization,而无需重新训练新模型。
在三位数 tokenization 方案中进行两个数相加需要注意的是:结果有时会产生比输入数字更多的 token。例如将 999 和 111 相加时,它们单独只需要一个 token,但是当它们相加产生 1110 时,需要两个 token(1 和 110)。基于这个观察,本文想探索在使用 L2R 和 R2L tokenization 对不同的 token 长度执行加法时,会产生多大的差异。
接下来,本文将把导致额外 token 的加法称为进位(carry)加法,而那些没有进位的加法称为无进位(without carry)加法。
本文用 Llama3 8B Instruct 执行了不同数字长度和进位设置的算术任务。结果发现,减法、乘法或除法没有任何显著的性能差异,因此结果只展示了加法。

对于非进位加法,数字个数为 3 的倍数会产生完全相同的结果,因为像 528、491 这样的数字无论 token 化方向如何都具有相同的 token。

哪种 tokenization 方法适合数学
虽然 BPE 仍然是一种流行的 tokenization 方法,但如果你必须使用具有最多 3 位数的 tokenizer,请确保数据 token 方向为 R2L。
如果你已经有一个经过训练的模型,数据 token 方式为 L2R,那么你可以通过使用 R2L 来获得更好的数学性能。
最重要的是,对于算术运算,单位数 tokenization 的性能明显优于其他方法。

总结而言,tokenization 对语言模型中的算术性能有显著影响。通过仔细选择,我们可以根据问题类型优化 tokenization 策略,从而提高 LLM 在数学任务上的表现。
原文链接:https://huggingface.co/spaces/huggingface/number-tokenization-blog
.....
#xxx
.....
#xxx
.....
#xxx
.....
#斑马口语攻克的四大技术难关
中国AI Agent产业化参考范本
2025 年,AI 产业正在经历一场关键转折。
当 OpenAI、Google 等 AI 巨头们还在展示多模态大模型的各种可能性时,真正决定 AI 商业价值的战役已经在教育、医疗、客服等具体领域打响。在这场产业化竞赛中,斑马推出业内首个真正实现 AI 外教一对一的产品「斑马口语」,是真正意义上在垂直行业落地的 AI Agent,它所突破的技术难题,更深刻地验证了 AI 落地的本质规律:垂直场景的深度打磨,往往比通用能力的炫技更具意义。
行业共识的转向:从通用探索到垂直落地
过去两年,大模型领域最不缺的就是令人惊艳的演示视频。多模态交互、情感识别、实时对话,每一项技术突破都让人看到 AI 应用的无限可能。但当这些技术真正要落地到具体场景时,才会发现理想与现实之间横亘着巨大的鸿沟。
这是因为通用大模型试图在所有场景下都表现良好,却在任何场景下都难以做到极致。这种「什么都能做一点,什么都做不精」的状态,使得通用大模型难以直接承担关键的生产任务。
真正的产业化落地,必然发生在垂直场景。在线口语教学恰恰是最适合 AI Agent 落地的垂直场景之一。它有明确的教学目标、可量化的学习效果、标准化的内容体系,同时又需要个性化的互动和即时的反馈,这些特性为 AI 技术的应用提供了清晰的边界和明确的价值锚点。
然而,教育场景对 AI 的要求也尤其苛刻。一个合格的 AI 外教,不仅要能听懂孩子说的话,还要判断孩子的发音是否标准、情绪是否积极、理解程度如何,然后根据这些信息实时调整教学策略。更关键的是,它必须适龄 —— 不能输出任何不当内容,不能超出孩子的认知范围,不能产生事实性错误。这些要求,通用大模型都很难直接满足。
斑马口语给出的解决方案是基于通用大模型能力,针对 6-12 岁儿童英语口语这个场景做深度定制,打造一个真正「会教英语」的一对一 AI 外教,而非仅仅「能聊英语」的 AI 助手。

技术突围:AI 口语教育必须跨越的四道门槛
要让 AI 真正「像老师一样」完成教学任务,面临的挑战远超想象。这些挑战不是单靠调几个参数、改几句 Prompt 就能解决的,它需要的是系统性技术攻关。

挑战一:实时交互必须「够快」
人类对话有个基本规律:日常闲聊时 0.2 到 1.5 秒的响应让人感觉自然流畅,需要思考的场景 2 到 4 秒可以接受,但如果超过 5 秒,对话就会有明显的中断感,让人怀疑「对方是不是没听清」。
AI 外教要模拟真人老师的教学节奏,就必须把延迟控制在合理范围内。斑马口语团队制定了分层延时目标:鼓励、确认、简单纠错等即时反馈要在 1.5 秒内完成,保持学习节奏流畅;常规问答、知识点讲解等标准响应则需控制在 1.5 到 2.5 秒,符合 AI 老师在组织语言的认知预期。
不过现实很骨感。一个完整的语音交互链路包括 ASR 语音识别(500-800ms)、大模型推理(700-1200ms)、TTS 语音合成(300-500ms),再加上网络传输(约 100ms),总延迟很容易超过 2.5 秒。这在教学场景下是不可接受的,因为孩子说完话等了好几秒 AI 才回应,学习节奏完全被打乱,专注度也会大幅下降。
斑马口语的解决方案是全链路的流式处理架构。ASR 采用流式识别,孩子边说、系统边转写,不用等整句话说完;大模型实现流式推理,优化首句时间,让系统尽早开始响应;TTS 采用流式合成,边生成边播放;通过流式架构,将各环节由「串行等待」改为「流水线并行」。
更关键的是,团队设计了智能调度策略。系统会判断当前交互的复杂度,简单的鼓励、确认用轻量模型快速响应,复杂的讲解、纠错才调用大模型深度分析,动态选择最优路径。同时根据教学流程预加载可能的回复内容,减少临场计算。在网络层面,采用 WebRTC 协议实现低延迟实时通信,建立 ES (Event Stream) 和 RS (Response Stream) 双通道架构,优化数据传输效率。
这套组合拳下来,端到端延迟被压到了 1.5 到 2.5 秒的目标范围,基本达到了「真人对话」的自然度。从实际体验来看,当孩子完成一个复杂的自我介绍后,AI 外教的回应也能在 2 秒左右给出,没有明显的卡顿感,对话相当流畅。
,时长02:23
挑战二:语音识别必须「够准」
英语教学对语音识别的要求,远超普通的语音助手。
首先是发音评测的精准度。英语中有很多易混音素,比如 /θ/(think)和 /s/(sink)的细微差别,传统 ASR 很难准确识别。跟读纠音需要给出音素级别的反馈,告诉孩子哪个音发得不标准、应该怎么改进。不同年龄段孩子的发音能力差异大,低龄儿童的发音不标准率可能超过 40%,系统必须能准确识别这些「不标准」的发音,否则就无法给出有针对性的指导。
其次是真实环境的音频干扰。孩子在家里学习,背景有电视声、家人说话声、宠物叫声,不同设备的麦克风质量参差不齐。在这种复杂环境下,系统既要准确识别孩子的声音,又要过滤掉各种噪音,难度相当大。
还有个技术细节特别关键,那就是 VAD(语音活动检测)判停策略。怎么判断孩子是说完了还是在思考?如果判停太快会打断孩子思路,判停太慢又会让对话节奏拖沓。低龄学生习惯说「嗯…… 那个…… 就是……」这种语气词,很容易被误判为多次独立输入,导致交互混乱。
斑马口语的做法是智能 VAD 判停策略和引入上下文感知。结合音频能量、静音时长、语义完整度三维判断,而非单纯依赖静音时长来进行判断;同时根据教学环节(问答、跟读、思考题)动态调整判停阈值。
在 VAD 判停上,团队设计了智能策略,结合音频能量、静音时长、语义完整度三维判断,而非单纯依赖静音时长。并且引入上下文感知,根据教学环节动态调整判停阈值。比如在思考题环节系统会容忍更长的停顿时间,在跟读环节则会更快地判断结束。
在 TTS 输出能力层面,团队持续打磨教学场景的语调、语速、教学重读等维度的精细控制能力,在纠音场景中实现了音素级的发音控制,让孩子能清楚地听到标准发音的特点。同时根据不同教学环节(如自然对话、示范带读、发音纠音)的场景特点,拆分出多种语音风格的控制能力,达到拟人化的表现效果。此外在音频的返回速度上持续优化,降低孩子与老师之间的交互延迟提升体验。团队还建立了标准发音库和纠错话术模板,确保发音示范的准确性和一致性。
这套方案的效果,在实际体验中得到了验证。比如在「你说我画」的小游戏里,孩子用不那么精准的英语描述妈妈长相,AI 依然能准确理解并实时画出头像,这背后正是语音识别能力的体现。
,时长02:56
挑战三:内容输出必须「够适龄」
教学场景与通用对话的本质区别在于,教学需要严格的目标导向和内容可控,而大模型天然具有开放性和随机性。它们可能产生错误的知识表述、输出不适合儿童的内容,或者可能在对话中「跑题」,比如讲宇航员时扯到太空站、重力等,6-12 岁的孩子根本听不懂。在儿童教育场景下,任何一个失误都可能引发严重后果。
斑马口语的应对是建立多层防护体系。
在模型训练阶段,其自研「猿力大模型」的训练数据经过严格筛选。团队不仅排除暴力、偏见等明显不当内容,还特别关注数据是否适合儿童,强调正向价值观的传递。同时通过对抗性训练、安全奖励机制等方式进行安全强化训练,让模型在生成内容时就具备基本的安全意识。
在功能上线前,团队进行了全面的测试集验证,覆盖各种极端场景。比如孩子突然问一个超纲问题、或者故意说些奇怪的话,AI 应该如何应对。测试集会持续更新,随着使用场景的拓展不断完善。
在服务运行时,系统接入传统风控系统实时拦截,同时进行在线会话质检监控。一旦发现问题内容,立即触发安全预案,比如终止对话、转移话题、或者给出标准化的安全回复等。
挑战四:多模态呈现必须「够稳」
现代在线教学是语音、动画、文字、特效等多种元素的协同,要让这些元素在时序上精确配合、在体验上浑然一体,是个系统工程挑战。
最直观的问题是同步性。AI 说「Look at this」时,屏幕上的高亮特效必须精确同步出现,误差超过 200 毫秒就会让人感觉「对不上」。但这些元素分属不同的技术栈,语音播放由 Audio 引擎负责,动画由渲染引擎控制,UI 交互由前端框架管理,三者运行在不同的线程甚至不同的进程。AI 生成的是文本流,需要实时转化为语音、动画、UI 指令等不同形式。当某个环节出现延迟,比如网络卡顿导致音频流中断等,其他模块需要同步暂停或降级,避免出现「声画不同步」。
为此,斑马口语设计了统一的时序编排引擎。所有模态元素在统一时钟下调度,将复杂交互分解为原子指令,比如播放语音、显示动画、高亮元素等,每个指令携带精确时间戳。此外还实现了自动补偿机制,检测到某个模块延迟时,动态调整后续指令的触发时机,保持整体同步。
在内容生成上,采用「边生成边渲染」的流式策略。LLM 生成文本流后实时分句,并行触发 TTS 合成和动画指令生成。这意味着第一句话在播放时,第二句话已经在合成,第三句话的动画指令已经在准备。同时建立指令预取缓存,根据教学脚本预加载高概率的动画资源和音频片段,进一步降低延迟。
此外,针对设备性能差异,团队实现了自适应性能降级。系统实时监测设备的 FPS、内存占用、网络延迟、CPU 温度等指标,根据性能档位动态调整呈现策略。高端设备给 60fps 动画加粒子特效,低端设备降到 30fps 动画加静态图,网络弱时优先保证语音交互,降低动画资源的加载优先级。

下半场看落地:斑马口语为中国 AI Agent 产业化落地提供范本
AI 教育这个赛道,从来不缺入局者。
谷歌推出了 Learn Your Way,能根据学生兴趣改写教科书;可汗学院做了 Khanmigo,用 GPT 技术提供个性化辅导;大英百科全书上线了 Britannica Chatbot,靠海量数据库答疑解惑。不过,这些产品主要围绕知识问答、内容重构展开,大多停留在「AI 辅助学习」的层面,本质上仍是工具属性,而非真正意义上的「教学」。
真正能做到 AI 主导教学、像真人老师一样引导孩子完成系统化学习、且经得起日常大规模使用的,斑马口语算是领先者。
这种领先绝非偶然。它建立在斑马多年的实践积累之上,近 60 万节真实对话数据、1500 万分钟的交流记录,这些都是其他公司难以复制的垂直领域资产。研发团队在儿童培养方向尤其是语言学习领域上的技术积累,也不是靠短期投入就能够建立起来的。

斑马口语的成功,实际上正在重构整个口语教育赛道的竞争规则。过去行业比拼的是外教资源、师资数量、约课便利性,现在斑马口语把标准拉到了新高度 ——AI 外教能否做到「超人类」,即比真人外教更稳定、更个性化、更具可扩展性。这种标准的提升,意味着竞争焦点从资源获取能力转向 AI Agent 打造能力,门槛彻底改变了。
而当这样的垂直 AI Agent 在教育领域站稳脚跟,其他行业也必然会跟进。我们可以预见,未来会有更多领域的专业 Agent 涌现,比如医疗问诊 Agent、心理咨询 Agent、法律咨询 Agent,就像移动互联网时代各个超级 App 的崛起一样,这些垂直 Agent 将在各自领域深耕,最终形成一个全新的 AI 服务生态。
从更宏观的视角来看,斑马口语的实践为中国 AI Agent 产业化提供了一个可参考的范本。它证明了中国企业在垂直 AI 应用上,完全有能力做到全球领先。当技术和产业深度融合时,中国市场的庞大规模、丰富场景、快速迭代能力,会成为巨大的优势。
AI 的下半场,比拼的不是谁的大模型参数更大、谁的 Benchmark 分数更高,而是谁能真正把技术转化成用户价值、谁能在垂直场景里做出真正好用的产品。随着更多像斑马口语这样的垂直 AI Agent 涌现,中国在 AI 产业化落地的道路上,也将走出一条属于自己的路径。
.....
#OPTIMIZING MIXTURE OF BLOCK ATTENTION
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出
今年 2 月,月之暗面提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」。
据介绍,MoBA 是「一种将混合专家(MoE)原理应用于注意力机制的创新方法。」该方法遵循「更少结构」原则,并不会引入预定义的偏见,而是让模型自主决定关注哪些位置。
MoBA 在处理长上下文时表现出极强的潜力,它允许 Query 只稀疏地关注少量 Key-Value 块,从而大幅降低计算成本。
然而,目前业界对 MoBA 性能背后的设计原则仍缺乏深入理解,同时也缺少高效的 GPU 实现,这限制了其实际应用。
在这篇论文中,来自 MIT、NVIDIA 机构的研究者首先建立了一个统计模型,用于分析 MoBA 的内部机制。模型显示,其性能关键取决于路由器是否能够基于 Query-Key 的相似度,准确区分相关块与无关块。研究者进一步推导出一个信噪比,将架构参数与检索准确率建立起形式化联系。
基于这一分析,本文识别出两条主要的改进路径:一是采用更小的块大小,二是在 Key 上应用短卷积,使语义相关信号在块内聚集,从而提升路由准确性。
然而,尽管小块尺寸在理论上更优,但在现有的 GPU 实现中,小块会导致严重的内存访问碎片化和低并行度,速度甚至慢于稠密注意力。
为解决这一矛盾,研究者进一步提出了 FlashMoBA,一种硬件友好的 CUDA kernel,可在小块配置下仍然高效地执行 MoBA。
结果显示优化后的 MoBA 在性能上可与密集注意力基线相匹敌。对于小块场景,FlashMoBA 相比 FlashAttention-2 可实现最高 14.7 倍加速。
- 论文地址:https://arxiv.org/pdf/2511.11571
- 项目地址:https://github.com/mit-han-lab/flash-moba
- 论文标题:OPTIMIZING MIXTURE OF BLOCK ATTENTION
FLASHMOBA:一种面向小块 MoBA 的优化内核
理论模型表明,较小的块尺寸能带来显著的质量提升,但朴素的 GPU 实现效率低下。由月之暗面发布的原始 MoBA 实现,在配置小块尺寸时会遭遇性能瓶颈,这些瓶颈抵消了稀疏性带来的计算节省,导致执行速度比稠密注意力更慢。
研究者推出了 FlashMoBA,这是一种硬件感知的 CUDA 内核,旨在使小块 MoBA 变得实用且高效。
小块带来的性能挑战
小块尺寸引入了几个关键的性能挑战,要在实际部署中应用必须解决这些问题。
首先,在为每个查询收集稀疏、不连续的键值块时,会出现低效的内存访问,导致从 HBM 读取数据时出现非合并内存读取。
其次,随着较小的块尺寸

导致路由器必须评分的块数量(

)增加,Top-k 选择和门控的开销变得棘手。原始实现显式生成了一个巨大的

分数矩阵,产生了巨大的内存开销。
最后,由于每个块的工作量减少以及启动大量独立内核的开销,导致 GPU 占用率低,进而造成并行度差和硬件利用率低。
FLASHMOBA 内核设计
为了克服这些挑战,FlashMoBA 采用了三个融合内核,以最大限度地减少 HBM 往返次数,并使计算与 GPU 架构相对齐,如图 1 所示。
分块 Top-K 选择
Top-k 选择过程是原始 MoBA 实现中的主要瓶颈,该实现显式生成了完整的分数矩阵并串行处理批次序列。研究者将其替换为 Flash TopK(图 1 中的步骤 1),这是一个由融合内核组成的高度优化的三阶段流水线。

首先,一个 Triton 内核计算键块的质心,生成一个更小的矩阵

。
其次,受 FlashAttention-2 启发的分块内核通过计算

和

之间的分数来为每个查询找到 Top-k 个键块,且无需将完整的分数矩阵显式写入 HBM,如算法 3 所述。

最后,一个高效的后处理步骤将以查询为中心的索引重新格式化为以键块为中心的变长布局,以便进行主注意力传递。整个流水线在批次和注意力头之间完全并行化,消除了原始的性能瓶颈。
采用「收集并致密化」策略的前向传播
为了处理 MoBA 的不规则稀疏性,前向内核使用了一种基于两级分块机制的「收集并致密化」策略,详见算法 1。

要区分两种类型的块:
逻辑块:内核在其外层循环中迭代的大型连续查询块

和键块

。一个逻辑键块对应一个 MoBA 键块。
物理块:加载到 SRAM 中用于矩阵乘法的较小图块(Tiles,例如

或

。它们的最佳尺寸取决于 GPU 架构和注意力头的维度。
内核将一个逻辑查询块

分配给每个线程块,并遍历所有逻辑键块

。对于每一对块,它使用变长索引来查找相关的查询。该子集被分批处理成稠密的物理块:从 HBM 收集物理查询块并放入稠密 SRAM 缓冲区进行计算。
这种两级方法是关键所在,因为在 SRAM 中缓存查询允许在逻辑键块的所有物理图块之间复用数据,从而通过高效的稠密 GEMM(通用矩阵乘法)分摊昂贵的不规则内存访问成本。
带重计算的反向传播
反向传播利用了 FlashAttention-2 的内存高效设计,并实现为三个内核的序列(算法 5)。

主内核在键维度上并行化计算,每个线程块处理一个键块。为了处理稀疏性,它镜像了前向传播的「收集并致密化」策略,使用变长索引收集查询子集并将梯度输出到片上图块中。
遵循 FlashAttention-2 的方法,研究者在反向传播期间重计算注意力分数,以避免将完整的注意力矩阵存储在内存中。虽然键和值的梯度直接写入 HBM,但部分查询梯度

需要跨多个键块进行累加,这是通过对高精度全局缓冲区使用原子加法来高效且安全地处理的。
这种设计确保了反向传播在序列长度上保持线性复杂度,这是相对于标准注意力的二次复杂度的一个关键改进。由于反向传播通常构成优化注意力实现的主要性能瓶颈(通常比前向传播慢 2-3 倍),因此我们需要反向内核的高效率对于实现长序列的实际训练至关重要。
实验及结果
本文从零开始预训练模型,并进行可控实验来验证 MoBA 的设计原则。实验共训练了两个模型,所有实验均在 8× H100 80GB GPU 上完成:
- 340M 参数模型(hidden size 1024,16 heads,中间层规模 2816);
- 1B 参数模型(hidden size 2048,32 heads,中间层规模 8192)。
质量评估结果
本文在语言建模、长上下文检索以及真实任务上对 MoBA 的表现进行了评估。实验结果表明,改进后的模型在多种基准测试中提高了性能。
首先是块大小的影响。图 2 展示了块大小对 340M 模型在 WikiText 困惑度(perplexity)和 RULER 准确率上的影响。正如

的理论预测,将块大小从 512 缩小到 128,使困惑度从 20.9 降至 19.7,RULER 准确率从 38.8% 提升到 56.0%。更小的块能够帮助路由器更精准地识别相关内容。

这一趋势在所有基准和不同模型规模上都保持一致。对 340M 模型来说,将块大小从 512 缩小到原来的 1/4 到 128,可带来如下提升:
- 语言建模准确率从 44.6% 提升到 45.6%(表 1);
- RULER 准确率从 38.8% 提升到 63.9%(表 3);
- LongBench 综合得分从 13.2 提升到 15.3(表 5)。



总体来看,小块尺寸对于 MoBA 达到与密集注意力相当的性能是必要的。
Key Convolution 。Key Convolution 在不同任务中都能带来性能提升,而且具有任务偏好特性。对于 340M 模型:
- kconv3 将语言建模准确率从 45.1% 提升到 45.6%(表 1);
- kconv5 在 64K 长度检索任务中达到 100% 的检索率(表 3);
- 在 LongBench 上,kconv3 得分达到 15.3%(表 5)。
对于 1B 模型:
- kconv3 将语言建模准确率提升到 52.7%(表 2);
- 将 RULER 准确率提升到 68.2%(表 4)。


这些结果表明,卷积通过使相关 token 在块内聚集,提升了有效均值差异

,从而显著提高路由准确性。
注:卷积核宽度 W∈{3,5},分别记作 kconv3 和 kconv5。
稀疏匹配密集注意力机制。在多个基准测试和规模下,MoBA 的表现与密集注意力机制相当甚至更胜一筹。

效率结果
虽然理论上小块尺寸能够带来更高的模型质量,但此前由于 GPU 利用率低下,小块一直难以在实际中使用。FlashMoBA 的出现让这些配置真正变得可行。
端到端性能。图 3 对比了不同序列长度(8K 至 512K token)下的延迟和内存占用。FlashMoBA 在两项指标上都显著优于原始实现。
在 N=64K 且 B=128 的配置下:FlashMoBA 比原始 MoBA 快 7.4 倍,内存占用减少 6.1 倍,原始 MoBA 在 128K 序列就会 OOM(内存溢出),而 FlashMoBA 能扩展到 512K。
随着序列越长、块越小,优势更明显,因为 FlashMoBA 消除了全局 reindex 的开销,在长序列条件下可实现最高 14.7× 快于 FlashAttention-2 的速度。

为了理解 FlashMoBA 的提速来源,图 4 展示了在 N=64K 下前向传播的耗时分布。
原始 MoBA 包含 5 个阶段:(1)计算质心并执行 top-k、(2)全局 reindex、(3)在路由后的索引上执行注意力、(4)局部因果注意力以及(5)合并结果。
其中步骤 (1)、(2)、(5) 占据了超过 70% 的执行时间。
FlashMoBA 则使用两个融合 kernel,这种融合设计将 64K 序列下的前向传播时间降至 49 ms,而 FlashAttention-2 在相同设置下为 99 ms。

.....
#Video-As-Prompt
视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt
本工作由第一作者在字节跳动智创北美团队实习期间完成。第一作者卞宇轩目前为香港中文大学计算机科学与工程系博士二年级学生,研究方向为可控视频生成,师从徐强教授,并曾在字节跳动、腾讯等公司实习。个人主页:https://yxbian23.github.io/
视频创作中,你是否曾希望复刻变成 Labubu 的特效,重现吉卜力风格化,跳出短视频平台爆火的同款舞蹈,或模仿复杂有趣的希区柯克运镜?
在现在的 AI 视频生成中,这些依赖抽象语义控制的创作,因缺乏统一的条件表征,实现起来往往异常困难。
最基础和直接的想法是针对每一种抽象语义单独训练 LoRA 或针对某一类语义条件设计专门的模型架构完成针对性的特征提取和可控生成。
然而,语义条件可能无穷无尽,一个条件训练一个模型会导致实际使用非常复杂,计算消耗非常庞大,且面对未曾训练的其他语义条件,模型没有任何泛化性能;针对某一类语义设计模型架构一定程度上在单独子集解决了这个问题(例如:相机控制,风格迁移),但面对着不同语义类别,仍需要不断切换模型,其任务专一的设计也无法完成不同语义类别的统一建模,阻碍了统一模型和模型规模化的进展。
为了解决这一痛点,香港中文大学与字节跳动团队联合提出了一种全新的语义可控的视频生成框架 Video-As-Prompt。它引入了一种「视频参考」的新范式,用户只需提供一段参考视频和对应的语义描述共同作为 prompt,模型就能直接「克隆」指定语义并应用于新内容,从根本上实现了抽象语义下可控视频生成范式的统一。
该工作的训练、推理代码和目前最大的高质量多语义数据集均已开源。该工作所提出的数据集规模宏大,包含超过 100K 视频,覆盖超过 100 个不同的高质量语义条件。
- 论文标题:Video-As-Prompt: Unified Semantic Control for Video Generation
- 项目主页:https://bytedance.github.io/Video-As-Prompt/
- 论文:https://arxiv.org/pdf/2510.20888
- Demo:https://www.youtube.com/watch?v=S3zpLIMOU4c
- 模型:https://huggingface.co/collections/ByteDance/video-as-prompt
- 数据集:https://huggingface.co/datasets/BianYx/VAP-Data
- 代码:https://github.com/bytedance/Video-As-Prompt
Video-As-Prompt 能力展示
Video-As-Prompt 支持四大类复杂语义的克隆和迁移:复杂概念、艺术风格、指定动作和相机运镜,基于其强大的克隆能力,Video-As-Prompt 衍生出诸多应用:
- 用包含不同语义的不同参考视频驱动同一张图片:
,时长00:03
- 用包含相同语义的不同参考视频驱动同一张图片:
,时长00:06
- 用同一个参考视频驱动不同图片:
,时长00:06
- 结合文本实现语义编辑:
,时长00:05
更多的 demo 效果请参考项目主页。
Video-As-Prompt 算法解读
实现一个统一的语义可控视频生成模型的关键就在于:
- 如何构建统一的语义条件表征
- 如何在语义条件表征和生成视频之间建立有效的语义信息映射
- 如何找到可扩展的架构以实现高效训练
Video-As-Prompt 通过让具有指定语义的参考视频充当生成上下文 prompt,实现了抽象语义条件下的统一可控视频生成。
- 语义条件表征
提出使用参考视频作为统一的抽象语义条件表征,无需针对不同语义进行分类和设计针对编码模型,大大提升了模型架构的通用性、可拓展性,同时降低了用户使用的难度。
- 语义信息映射
将参考视频当作「视频 prompt」,从 in-context generation 的角度完成统一的语义映射。
- 可扩展的架构
直接训练视频生成基模通常会导致在数据有限的情况下发生灾难性遗忘。为了稳定训练,研究者采用 Mixture-of-Transformers(MoTs):一个冻结的视频扩散 Transformer(DiT)加上一个从主干初始化的可 trainable 并行专家 Transformer 联合建模。

具体来说,专家处理参考视频代表的语义条件 tokens,而冻结的 DiT 处理待生成的视频 tokens。每个 DiT 都保留各自的 Q、K、V 投影、前馈层和归一化层;在每一层连接两部分的 Q/K/V,并运行全注意力机制,以实现双向信息融合和上下文控制。
Video-As-Prompt 实验结果
为了支持统一的语义控制视频生成,研究者构建并发布了 VAP-Data 用于促进相关研究大规模训练,和对应的 Benchmark 用于公平评测,这是目前开源用于语义可控视频生成的最大数据集,其中包含超过 100 个语义条件下的 100K 个精选配对视频样本。

研究人员主要和两类方法进行了比较:
- 统一的结构化控制视频生成:VACE 的三个变体(分别采取原始参考视频,参考视频的深度、光流作为控制条件)
- 离散的语义控制视频生成:原始的视频 DiT 基座,视频 DiT 基座 + 针对每种语义单独训练 LoRA,Kling/Vidu 等商业 API
总体而言,Video-As-Prompt 的性能在整体视频质量、文本一致性、语义一致性(Gemini-2.5-Pro 判别)和人工偏好上都与闭源模型 Kling/Vidu 相当并优于其他开源基线,并且是首个针对所有语义条件统一控制且可扩展和推广的模型。
并且,通过将所有语义条件视为统一的视频提示,Video-As-Prompt 支持多种语义控制的生成任务。此外,当给定一个不属于训练数据的语义参考时,从参考视频建模范式中学习到的上下文生成能力使 Video-As-Prompt 能够执行由新语义参考引导的零样本生成,这超越了之前所有的方法,并为未来的统一可控生成提供了新的可能。
,时长00:05
左边为训练时完全不曾见过的相关语义参考视频,右边为 zero-shot 推理结果
总结
Video-As-Prompt 是一个统一的、语义控制的视频生成框架,它提出参考视频克隆生成的生成范式,将参考视频视为 video prompt,并通过 Mixture-of-Transformers 实现即插即用的上下文控制,提供了可扩展的语义控制和零样本泛化能力。其统一的参考视频建模(「Video-As-Prompt」)框架,验证了基于参考视频的可控生成这一思路的巨大潜力。
同时,开源的大规模视频参考生成数据集也将为社区的相关研究提供强有力的数据支持,有望推动 AIGC 视频创作进入一个生成更可控、语义更丰富的新阶段。
.....
#ReSeek
告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent
为了同时解决知识的实时性和推理的复杂性这两大挑战,搜索智能体(Search Agent)应运而生。它与 RAG 的核心区别在于,Search Agent 能够通过与实时搜索引擎进行多轮交互来分解并执行复杂任务。这种能力在人物画像构建,偏好搜索等任务中至关重要,因为它能模拟人类专家进行深度、实时的资料挖掘。
但 Search Agent 经常面临着一个棘手的瓶颈:缺乏过程中的自我纠错能力。现有的智能体一旦在推理早期因一个模糊的查询而走上错误的路径,就会基于这个错误结果继续执行,引发连锁式错误(Cascading Errors),最终导致整个任务失败。
为了攻克这一难题,腾讯内容算法中心联合清华大学,近期提出 ReSeek 框架,它不是对 RAG 的简单改进,而是对 Search Agent 核心逻辑的一次重塑。
ReSeek 的关键在于引入了动态自我修正机制,允许智能体在执行过程中主动评估每一步行动的有效性。一旦发现路径无效或信息错误,它就能及时回溯并探索新的可能性,从而避免「一条路走到黑」。
- 论文地址:https://arxiv.org/pdf/2510.00568
- 开源模型及数据集地址:https://huggingface.co/collections/TencentBAC/reseek
- Github 地址:https://github.com/TencentBAC/ReSeek
连锁式错误:一步错,步步错
连锁式错误指的是,智能体在多步推理链的早期,哪怕只犯了一个微小的错误,也会像推倒第一块多米诺骨牌一样,导致后续所有步骤都建立在错误的基础之上,最终使整个任务走向完全失败。
这个过程可以分解为以下几个阶段:
- 初始偏差:任务起点是「美国上一任总统哪一年出生的」?智能体没有先去识别 「上一任总统」是谁,而是直接将整个模糊问题扔给搜索引擎,这种跳过推理、依赖直接搜索的策略就是最初的偏差。
- 错误固化:搜索结果中可能同时出现了「特朗普」「总统」和「出生年份」等信息,智能体从中错误地提取并认定了「上一任总统就是特朗普」,它没有停下来验证这个信息的准确性,而是将这个未经证实的猜测固化为后续步骤不可动摇的事实依据。
- 无效执行:智能体基于「上一任总统是特朗普」这个前提,去执行搜索「特朗普的出生年份」的指令。接着智能体抓取了年份「1946」(这是特朗普的出生年份),这个执行步骤本质上是一次无效执行。
- 任务失败:最终,智能体给出了一个完全错误的答案:「美国上一任总统出生于 1946 年。」这个结果与事实(正确应为 1942 年)完全不符,它错误地将一个人的信息安在了另一个人身上,直接导致了任务的彻底失败。

根源何在?「执行者」而非「思考者」
为什么当前的搜索智能体会如此脆弱?根源在于它们在设计上更偏向一个「忠实的执行者」,而非一个「批判性的思考者」。
- 缺乏反思机制:智能体遵循一个线性的「思考 - 行动」循环(Think-Act Loop),但缺少一个关键的「反思 - 修正」环节(Reflect-Correct Loop)。它不会在得到中间结果后,与最初的目标和约束条件进行比对和审视,评估当前路径的合理性。
- 对中间结果的「盲信」:智能体将每一步的输出都视为不容置疑的「事实」,并将其直接作为下一步的输入。这种对中间结果的过度自信,使其无法从错误的路径中抽身。
因此,当前搜索智能体的脆弱性在于其推理链的刚性。它擅长沿着一条既定路线走到底,却不具备在发现路走不通时,掉头或另寻他路的能力。要让智能体真正变得鲁棒和可靠,未来的关键突破方向在于:赋予智能体自我反思和动态纠错的能力,让它从一个只会「一条路走到黑」的执行者,进化成一个懂得「三思而后行、及时止损」的思考者。
让 Agent 具备元认知能力
为了赋予智能体自我反思和动态纠错的能力,团队扩展了 Agent 动作空间,引入了一个核心的 JUDGE 动作。该动作在每次信息获取后被调用,用于评估新信息的有效性。
这个机制的关键在于对历史信息的选择性关注 (selective attention to history),而非复杂的状态回溯。在每个时间步 t,智能体首先执行一个动作(如 Search)并获得一个观察结果

。随后,它执行 JUDGE 动作,输出一个判断

。这个判断将决定

是否被纳入后续决策的上下文中。
具体而言,智能体在生成下一步动作

时所依赖的上下文

是动态构建的:

这里

表示到上一步为止的有效轨迹历史,

是指示函数,

代表上下文的拼接操作。
当 JUDGE 的判断

不为 'bad' 时,当前观察到的信息

会被追加到历史中,为后续决策提供证据。反之,若判断为 'bad',该信息将被忽略,智能体将仅基于之前的有效历史

进行下一步规划。这一机制使得智能体能够主动过滤掉无效或误导性的信息,并在一个已知的「好」状态上重新尝试,从而有效阻断错误链条。

自我纠错的奖励函数设计
为了让策略网络学会做出准确的判断,JUDGE 动作需要有效的学习信号。为此,团队设计了一个密集的中间奖励函数

,专门用于训练智能体的自我评估能力。
其核心思想是:当智能体的判断

与一个客观的「理想判断」

一致时,给予正奖励;反之则给予惩罚。

这里的挑战在于如何确定理想判断

。团队通过一个外部的重排模型(Reranker)来近似生成该标准。具体来说,计算当前观察信息

与问题标准答案(Ground-Truth Answer)之间的语义相关性得分

。该得分随后被映射到一个离散的标签('good' 或 'bad'),作为

的近似。
这种奖励塑造(Reward Shaping)策略为智能体提供了密集的、步进式的反馈,引导其逐步学会如何准确评估信息价值,从而使 JUDGE 动作真正有效。
FictionalHot 基准的构建
为了公正且严格地评估智能体的真实推理能力,团队构建了 FictionalHot 数据集。其核心目标是创建一个封闭世界(closed-world)的评测环境,以消除预训练模型因「记忆」了训练数据而带来的评估偏差(即「数据污染」问题)。
构建流程如下:
- 采样与改写:从现有的问答数据集中采样种子问题,并利用大模型对问题进行改写,将其中所有真实世界的实体(人名、地名、事件等)替换为虚构实体,同时保持原问题复杂的推理结构不变。
- 生成虚构知识:为每一个虚构实体生成对应的、维基百科风格的说明文档。这些文档是解决新问题的唯一事实来源。
- 构建封闭知识库:将这些生成的虚构文档注入到一个标准的维基百科语料库中,形成一个封闭且受控的知识环境。
通过这种设计,FictionalHot 迫使智能体必须依赖其程序化的搜索、整合与推理能力来解决问题,而不是依赖其参数中存储的先验知识。这样能够更干净、更准确地评估 ReSeek 框架在提升智能体核心能力方面的真实效果。

多数研究实验设置不一致
当前,对 Search Agent 的评估面临着实验设置的不一致的挑战。现有研究在多个关键方面存在差异:
- 知识库 (Corpus): 使用的知识源各不相同,从静态的维基百科快照(如 2018、2019 年版)到无法复现的实时互联网,差异巨大。
- 测试集 (Test Sets): 有的研究使用涵盖多种任务的广泛测试集(如 NQ, TriviaQA 等,集合 A),有的则专注于需要复杂推理的多跳问答任务(如 HotpotQA, Musique 等,集合 B)。
- 训练方式 (Training Regimes): 模型的训练策略也五花八门,从完全不训练,到在单个或多个不同数据集上进行训练。
- 评估指标 (Metrics): 评估标准同样不统一,涵盖了从精确匹配(Exact Match)和 F1 分数,到使用大模型作为评判者(LLM-as-a-judge, LJ)等多种方式。

为了确保公平的比较,Reseek 采用了最普遍的训练方法,在 NQ 和 TriviaQA 的训练集上进行训练,并采用精确匹配(Exact Match, EM)作为主要评估指标。该模型在 7 个主流的公开问答数据集上进行了测试,涵盖了从简单事实查询到复杂多跳推理(如 HotpotQA)的各种任务。
此外,Reseek 还在自建的 FictionalHot 数据集上进行了测试。该数据集通过虚构内容,彻底杜绝了 “数据污染” 问题,能够更公平地评估模型的真实推理能力。
主要结果
实验结果表明,ReSeek 在 3B 和 7B 参数规模上均达到了业界领先的平均性能。该模型在 HotpotQA 和 Bamboogle 等需要复杂多跳推理的基准上优势尤为突出,这证明了其自我纠错范式在处理复杂问题上的高效性。
在 FictionalHot 基准上的测试揭示了一个关键现象:模型规模(7B vs. 3B)对性能的影响显著减小。这表明 FictionalHot 成功地消除了模型因规模增大而产生的记忆优势,从而能够更准确地衡量其程序化推理能力,凸显了该基准的评估价值。

交互轮次越多,模型效果越好?
为了分离行动预算(action budget)的影响并检验模型的迭代式自我纠错能力,团队对最大交互轮数(turns)进行了消融实验。此处的「交互轮数」定义为模型为单个查询可执行的最大动作次数。该设置旨在验证额外的动作步骤能否帮助模型复核证据、修正假设,或者其性能是否在一次「搜索 - 回答」的最小循环后即已饱和。
如下图,基线模型(baselines)的性能从一轮增至两轮时有显著提升,但在三轮和四轮时几乎停滞,这与其典型的两步工作流(搜索后回答)相符。
相比之下,ReSeek 的性能从一轮到四轮单调递增,展现了更强的自我纠错能力:当交互轮数更充裕时,它会在不确定时重新查询证据、优化规划并修正答案。平均性能也印证了这一趋势,ReSeek 取得了最高的平均分,证明该方法能将更多的交互预算转化为真实的性能增益,而非冗余操作。

JUDGE 机制到底有没有用?
为了更深入地理解判断器(Judge)机制在具体案例中的作用,而不仅仅是看最终的宏观分数,团队对其行为进行了细致的逐例分析。根据判断器干预所产生的实际效果,将其分为三类(见下图):
- 积极影响 (蓝色): 这类情况代表判断器的干预带来了明确的好处。例如:(1) 当模型状态能够导向正确答案时,判断器正确地给出了「是」的信号;(2) 当检索到的信息不包含答案时,判断器正确地给出「否」的信号,成功阻止了模型被错误信息干扰。
- 负面影响 (红色): 这类情况代表了判断器的干预起到了反作用。具体来说,就是判断器发出了「是」的信号(认为当前信息足以回答问题),但模型最终还是给出了错误答案。
- 中性影响 (绿色): 其余所有情况归为此类,表示判断器的作用不明确或为中性。
分析结果非常清晰:在全部的测试上,「积极影响」 的比例都非常高,稳定在 40-50% 之间。相比之下,「负面影响」的比例最低,通常不到 25%。正面与负面影响之间的这种显著差距,充分证明了该设计的有效性。这一质性证据表明,判断器是整个框架中一个可靠且高效的关键组件。

展望
ReSeek 框架的核心价值在于为复杂的业务场景提供高可靠性的决策支持。在需要实时数据或热点理解等领域,简单的「检索 - 生成」已无法满足需求。这些任务不仅要求信息实时,更要求推理过程的严谨无误。ReSeek 的自我纠错机制,正是为了解决这一痛点,通过赋予 Agent「反思」和「修正」的能力,显著降低因单点错误导致全盘失败的风险,提升复杂任务的成功率。
当然,通往通用智能 Agent 的道路充满挑战。当前的训练数据还不充分,距离实际落地还有一定距离,还面临一些有待解决问题和算法挑战, 相信在未来,Search Agent 能够作为一种基本的 Agent 范式,服务于每一位用户。
.....
#π*0.6
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅
新方法大幅提升了xx智能的成功率、处理效率。
完全使用真实世界数据训练的xx智能,具备什么级别的能力?
本周,美国xx智能创业公司 Physical Intelligence(简称 PI 或 π)发布了旗下的最新机器人基础模型 π*0.6。
PI 是一家总部位于旧金山的机器人与 AI 创业公司,其使命是将通用人工智能从数字世界带入物理世界:他们的首个机器人通用基础模型名为 π₀,让同一套软件控制多种物理平台执行各类任务。
在 2024 年,PI 获得超过 4 亿美元融资,估值突破 20 亿美元,成为xx智能赛道最受瞩目的玩家之一。
PI 的技术路线强调 「视觉 - 语言 - 动作」(VLA)模型,通过大规模机器人感知与动作数据训练出具备泛化能力的策略,使机器人不再局限于预设动作,而能在未知环境中灵活执行。

机器学习与决策控制领域的知名专家、UC Berkeley 副教授、Physical Intelligence 联合创始人 Sergey Levine 表示,搭载这个模型的机器人已经可以在公司的办公室里为人们制作拿铁、美式和意式咖啡了。
,时长09:42
Sergey Levine 表示,通过对 π*0.6 模型进行微调,可以使其在多种任务上表现出色,除了处理衣物之外的任务都可以达到 90% 成功率,而且任务处理的效率也大大提升了。
在 Physical Intelligence 的一篇博客中,工程师们详细介绍了 π*0.6 的机制与性能。
,时长03:50
想一下,要组装一个纸箱需要哪些步骤?
作为人类,想要快速高效地完成这个任务,首先你应该会请人教你一些基础知识:哪些方法有效,常见的错误有哪些,以及正确的技巧是什么。其次,一位优秀的老师不仅会演示如何操作,还会指导你,纠正你自行操作时犯的错误。但是,仅仅依靠指导是不够的:最终熟能生巧,成为纸箱组装大师的第三步是反复练习,直到熟练掌握,成为一种本能反应。
过去一年,我们在机器人学习领域看到的许多令人瞩目的成果,都仅仅使用了第一步 —— 通过人提供的演示来训练机器人。仅凭这一步,让机器人成功完成一半的任务并不难,但要让它每次都成功却非常困难,更不用说在复杂的实际任务中达到人类水平的效率了。这是一个很大的问题,因为实际的机器人任务需要一个能够可靠且快速运行的系统。
基于这样的思考,Physical Intelligence 开发了一种名为 Recap(基于优势条件策略的经验与纠错强化学习)的方法,它实现了所有三个步骤:通过演示训练机器人、通过纠错指导机器人,并使其能够从自主经验中改进。作者使用 Recap 改进了最新版本的视觉 - 语言 - 动作 (VLA) 模型 π(0.6),使其能够稳健高效地执行复杂任务,例如制作意式浓缩咖啡、组装纸箱和折叠各种衣物。
这款经过强化学习训练后的模型称为 π*(0.6),利用 Recap 在自主经验上训练 π*(0.6) 可以将一些最困难任务的吞吐量提高一倍以上,并将失败率降低 2 倍或更多。这使得 π*(0.6) 达到了实际应用所需的鲁棒性水平:它能够连续运行一整天制作意式浓缩咖啡,在新家中连续数小时不间断地折叠各种衣物,以及组装工厂实际包装所需的纸箱。
模仿是远远不够的
我们可能会想,为什么 VLA 仅依靠监督学习(即模仿)时难以持续取得成功,而监督学习在 LLMs 和其他机器学习系统中却效果很好。这个问题的原因实际上已经被很好地理解了,不过此前一直缺乏实用的解决方案。
当一个通过模仿训练的 VLA 控制机器人时,它会像任何模型一样犯一些小错误 —— 它可能把夹爪放在略微错误的位置、抓取失败,或撞倒一个物体。
由于机器人在真实的物理环境中进行交互,这些错误会产生与训练数据略有不同的情境,而在这些情境中,错误是会累积的。机器人更可能犯下另一个更大的错误,小错误是可以修复的,但累积错误会导致失败。
对于产生静态输出的 AI 系统(例如 LLMs)来说,这并不是一个大问题;但在模型作为一个持续与外部环境互动的控制策略时(例如现实世界中的机器人),这就是一个特定的问题。实际上,这意味着,虽然让 VLA 偶尔完成某项任务相对容易,但让它们可靠,稳定的实现成功却非常困难。
如果我们使用来自 VLA 自身行为的额外数据,本质上让它在真实世界中纠正它实际犯下的错误,就像人类可以通过练习在某项任务上不断提高一样,通过允许 VLA 反复练习,就可以解决累积错误的问题。
但对于这种类型的经验,能用什么作为真实标签?如果我们训练策略只是去复制它之前做过的事情,那我们只是教会它继续犯相同的错误。让模型能够从经验中学习的关键,是从糟糕的经验数据中提取出良好的训练信号。
,时长01:13
纠正式指导与强化学习
Recap 使我们能够从「质量较差」的经验数据中获得良好的训练信号,途径包括两种:
- 纠正式指导(coaching with corrections):由专家展示机器人如何修复错误或做得更好;
- 强化学习(reinforcement learning):机器人依据整个任务过程的最终结果自行判断哪些行为更好或更差,并通过迭代学习强化好的行为、避免不好的行为。
纠正式指导要发挥作用,专家远程操作人员需要提供纠正信号,展示如何从机器人在真实世界中实际犯下的错误中恢复。
实践中,这意味着运行当前最强的策略,并在机器人出错时通过手动远程接管(teleoperation)控制。这种干预可以作为监督信号使用,但与用于训练原始策略的演示不同,该干预针对的正是策略实际将机器人带入的那些状态,从而解决错误累积的问题。
然而,仅依靠纠正式指导是有限的:这类监督的质量受制于人类是否能及时判断应当介入以及是否能提供高质量的纠正。对于明显或严重的错误,这种方式可以奏效,但若想获得最佳性能 —— 即快速、可靠且一致地完成任务 —— 机器人必须能够自主学习。
从任务结果中通过强化学习进行学习的核心挑战在于信用分配(credit assignment):即理解机器人执行的哪些动作导致了好的结果,哪些导致了坏的结果。
如果机器人以错误的方式抓起意式咖啡机的手柄(portafilter),它在插入时可能会遇到困难。错误并不发生在插入阶段,而是在最初的抓取动作上。一个正确的信用分配方法应当将该失败归因于抓取错误,即使失败只是在之后的步骤中表现出来。

仅通过模仿学习训练的基础模型在将手柄插入意式咖啡机时会遇到困难。导致失败的错误可能发生在更早的阶段。
信用分配是强化学习中的一个关键挑战。Recap 通过训练一个价值函数来解决这一问题。
举例来说,在象棋这类游戏中,智能体只有在赢得比赛时才会获得奖励,那么价值函数就会根据当前棋局预测智能体获胜的概率。使价值函数上升的动作是应该被鼓励的好动作;而使价值函数下降的动作则应被抑制。
下图展示了价值函数在任务执行过程中所做的预测。

在一个回合中不同时间点的值函数预测。这个值函数预测完成任务的(负)步数。请注意,当机器人取得进展时预测会增加,而当进展很小时预测会保持平稳。
在训练好价值函数之后,我们需要利用它来得到一个更好的策略。实现这一点的方法有多种,但我们需要的是一种可扩展、并且能够与大型 VLA 模型结合使用的方法。
在 Recap 中,Physical Intelligence 将 VLA 在价值变化上调整:使用所有训练数据(包括好的和不好的动作),同时告诉 VLA 哪些动作是好是坏。由于模型在拥有大量数据时通常具有最佳的泛化能力,在训练中保留全部数据并仅仅将价值变化注释作为输入,是一个非常具有吸引力的选择。
在强化学习中,这种「价值变化」被称为优势(advantage)。在执行阶段,我们只需让这个按优势条件化的 VLA 去选择高优势的动作,从而得到一个比训练数据本身更优的策略。
面向真实世界任务
Physical Intelligence 使用 Recap 来训练 π*(0.6) 模型,使其能够执行多项真实世界应用。π*(0.6) 是基于 π(0.6) 模型训练得到的,而 π(0.6) 则是早期 π(0.5) 模型的改进版本。
它采用了稍大一些的骨干网络,并能够处理更加异质化的提示与条件信息,如下图所示。关于 π(0.6) 模型架构的更详细描述,请参阅模型卡。

Physical Intelligence 研究了三个应用场景:制作意式咖啡饮品、折叠多种类型的衣物,以及组装包装用的纸盒。Recap 的第一阶段,是使用离线强化学习(offline RL)对 π*(0.6) 模型进行预训练,这与基础 π(0.6) 和 π(0.5) VLA 所采用的标准监督学习方法形成对比。在此基础上,再通过示范数据对 π*(0.6) 进行任务级微调,随后利用机器人在真实环境中收集的额外数据继续通过强化学习进行训练,其中包括专家提供的纠正(用于修复大的错误)以及来自奖励的反馈(用于根据自主经验进一步改进)。
下方的图表对比了不同阶段模型的性能:监督学习训练的基础 π(0.6) 模型;使用离线强化学习预训练的基础 π*(0.6) 模型(即 Recap 的第一阶段);通过示范对每个任务微调后的 π*(0.6) 模型;以及结合机器人真实执行经验进行微调后的最终 π*(0.6) 模型。对每个任务,Physical Intelligence 测量了吞吐量(每小时成功完成任务的次数)以及成功率。
值得注意的是,对于一些最困难的任务(如制作意式咖啡),加入机器人真实执行经验后,吞吐量和成功率都提升了超过两倍。

Recap 在所有任务中都显著提升了吞吐量,并且通常还能带来成功率的大幅提升。
从质量上看,最终的 π*(0.6) 模型在结合示范数据和机器人自身经验学习后,能够熟练掌握每个应用任务。下面的视频展示了这些任务的一些评估亮点。

π*(0.6) 在每项真实世界任务中的质性示例。π*(0.6) 能够应对多种条件,并从错误中恢复。
每一项任务都包含许多挑战,使得实现高吞吐量的自主执行变得困难。
箱子组装任务需要执行高度复杂的物理操作 —— 在保持箱体结构的同时折叠箱盖。此外,该任务需要反复执行并处理各种边缘情况,正如上方视频中所示:有时扁平的纸箱会粘在一起,导致机器人一次抓起多个箱子,此时它必须将多余的箱子放回去;有时在出现错误后还需要重新折叠箱子。
衣物折叠任务则需要处理高度的多样性,并在不同初始条件和不同衣物种类之间实现泛化。这非常困难,因为不仅不同的衣物需要不同的折叠策略,不同材质的布料也具有不同的动力学特性。
最后,意式咖啡制作任务需要处理一个跨度非常长的操作序列,新模型使用了类似于之前 π(0.5) 模型的高层语言策略。该任务还涉及倒液体、判断咖啡研磨机和意式咖啡机何时完成工作、以及在制作结束后用布巾清洁机器。
这些步骤对当前最先进的 VLA 模型来说都极具挑战性,而 π*(0.6) 能够以超过 90% 的成功率完成这些任务。
下一步?
目前,机器人基础模型主要依赖人为收集的示范数据(例如通过远程操作)。这种方式使训练过程简单直接,但也带来了一个严重的障碍:数据需要大量人工投入,模型的速度与可靠性受限于人类的操作水平,而机器人本身无法通过经验不断变得更好。像 Recap 这样的方法在原理上能够解决这些限制,因为它还能直接从机器人自身的经验中学习。
随着机器人在真实世界中的部署越来越广泛,从经验中学习可能会成为一种重要的数据来源,并成为实现高性能模型不可或缺的组成部分。
就像人类通过「指导 — 辅导 — 练习」的组合方式成长一样,机器人同样将从多种不同的数据来源中学习。但这些数据来源会承担不同的角色:专家示范用于定义新的行为,纠正式指导用于改进策略,而自主经验 —— 可能是规模最大的数据来源 —— 则用于打磨行为,使其最终有可能达到超越人类的表现。
参考链接:
https://www.pi.website/blog/pistar06#where-are-we-headed
.....
#ScaleNet
华为诺亚发布ScaleNet:模型放大通用新范式
在基础模型领域,模型规模与性能之间的缩放定律(Scaling Law)已被广泛验证,但模型增大也伴随着训练成本、存储需求和能耗的急剧上升。如何在控制参数量的前提下高效扩展模型,成为当前研究的关键挑战。
针对这一挑战,来自北京理工大学、华为诺亚方舟实验室及香港城市大学的研究团队提出了 ScaleNet 方法。该方法创新性地实现了 “用仅少量额外参数量,将模型深度扩展一倍”,并在视觉 Transformer(ViT)和大语言模型(LLM)上均验证了其有效性,显著提升了模型性能。这一成果表明 ScaleNet 具备成为通用、经济高效的模型扩展框架的潜力,适用于视觉与语言多种任务。
- 论文地址:https://arxiv.org/abs/2510.18431
- 开源代码:https://github.com/Hao840/ScaleNet
研究动机:模型扩展的高昂成本
当前,从头训练一个大规模模型计算代价巨大。为此,研究界探索了 “渐进式训练”(Progressive Training)等方法,通过复用小模型的权重来初始化大模型,以加速训练。然而,这些方法通常会引入大量新的、独立的参数,不仅拖慢了优化进程,也带来了巨大的存储开销。
针对这一核心问题,ScaleNet 提出可以在保持参数效率的同时,实现模型的有效扩展。
核心方法:权重共享与增量调整
ScaleNet 的核心设计结合了两种技术:层级权重共享(Layer-wise Weight Sharing)和轻量级适配器(Lightweight Adapter)。
技术一:层级权重共享,实现参数高效
不同于为新层引入全新参数的传统做法,ScaleNet 让新增加的层与预训练模型中的已有层共享同一套参数。如下图所示,传统的渐进式训练(a)中,新层拥有独立的参数。而在 ScaleNet(b)中,新层与原始层共享参数(Weight sharing)。这种设计极大地提升了参数效率,并通过复用已有知识加速了模型的学习过程。

图 1 渐进式训练与 ScaleNet 的对比
技术二:轻量级适配器,赋予共享层特异性
完全的权重共享可能导致不同层功能趋同,限制模型的表达能力。为解决此问题,ScaleNet 为每个共享层引入了一个小型的、可训练的并行适配器模块(Adapter Module)。该模块仅包含极少量的调整参数,用于为每个共享层实例提供独特的调整,使它们在共享知识主体的同时,又能学习到各自的特异化功能,从而保证了扩展后模型的容量和性能。

图 2 ScaleNet 的整体框架
实验结果与分析
基于视觉模型的性能与效率评估
在 ImageNet-1K 图像分类任务上,ScaleNet 在多种模型架构(如 DeiT 和 Swin)上均表现出色,在参数量相近的情况下,稳定取得了比基线方法更高的准确率。

表 1 ScaleNet 与 baseline 方法的性能对比
相比于直接训练,ScaleNet 另一个优势体现在训练效率上。以 24 层的 DeiT-Small 模型为例:
- 从零训练:训练 300 个 epoch,耗时 47.3 小时,准确率为 79.31%。
- ScaleNet:仅需 100 个 epoch,耗时 15.8 小时,准确率达到 81.13%。

表 2 直接训练与 ScaleNet 之间的开销与性能对比
这一结果表明,ScaleNet 通过有效利用预训练知识,大幅缩短了训练周期,同时获得了更优的模型性能。
基于大语言模型的通用性验证
为了验证 ScaleNet 作为一种通用方法的潜力,研究团队将其应用到了自然语言处理领域。他们使用 ScaleNet 对 Llama-3.2-1B 语言模型进行扩展,并在多个常识推理基准测试集上进行评估。
实验结果(如表 3 所示)表明,扩展后的模型在 BoolQ、PIQA、HellaSwag 等多个任务上均超越了原始模型,平均性能提升了 0.92%。这一成功实践证明,ScaleNet 的核心思想并不局限于视觉领域,而是一种具备跨模态通用性的模型扩展框架。

表 3 在大语言模型上的实验结果
此外,该方法在目标检测、语义分割等下游视觉任务中同样取得了稳定提升,进一步证实了其良好的泛化能力。
总结
ScaleNet 框架通过层级权重共享与轻量级适配器的有效结合,为预训练模型的扩展提供了一条高效、低成本的技术路径。它不仅在视觉任务上大幅提升了训练效率和模型性能,还通过成功应用于大语言模型证明了其作为一种通用扩展范式的巨大潜力。这项工作为开发更大、更强且更经济的 AI 模型提供了新的思路,对促进 AI 领域的可持续发展具有积极意义。
.....
#Grok 4.1
刚刚,马斯克Grok 4.1低调发布!通用能力碾压其他一切模型
几乎毫无预兆,马斯克人工智能公司 xAI 发布了最新模型 Grok 4.1。
就在刚刚,xAI 宣布,Grok 4.1 已经向所有用户开放,可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。

Grok 4.1将立即在 Auto 模式中推送,并可在模型选择器中手动选择。

此次,Grok 4.1 将在真实世界可用性方面带来显著提升,尤其是在创造力、情感互动和协作交互方面表现出色。Grok 4.1 对细微意图的感知能力更强,与用户对话更加吸引人,整体人格也更连贯,同时完全保留了前代模型强大的智能与可靠性。

马斯克在 x 上宣传一波自家模型。
为实现这些提升,xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且,为了优化这些不可直接验证的奖励信号,xAI 开发了全新的方法,能够利用前沿的智能体式推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。
与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。

接下来看 Grok 4.1 的能力特征。
SOTA 通用能力
Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。
在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的推理模式(代号:quasarflux)以 1483 的 Elo 分数位居总榜首位,领先最高的非 xAI 模型整整 31 分。
Grok 4.1 的非推理模式(代号:tensor)无需使用思维 token 便能即时响应,在排行榜上以 1465 Elo 分数位居第二。即便不启用推理,Grok 4.1 也超越了其他所有模型在启用完整推理配置下的表现。
与 Grok 4 相比,Grok 4.1 的整体表现实现了大幅超越 ,前者此前的总排名仅为第 33 名。

情感智能
为了评估模型在个性与人际互动能力方面的进展,xAI 在 EQ-Bench3 上对 Grok 4.1 进行了测试。
EQ-Bench 是一个由大语言模型评判的测试,用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能。测试集包含 45 个具有挑战性的角色扮演场景,其中大多数由预先编写的三轮对话提示组成。该基准通过多项标准验证模型的回答质量,以评估模型表现。此外,它还通过成对对比的方式,为排行榜中的每个模型计算归一化的 Elo 分数。
xAI 使用官方基准仓库运行测试,并报告评分细则(rubric score)与归一化 Elo 分数。所有分数均在遵循基准要求的条件下计算:使用默认采样参数、指定的评判模型(Claude Sonnet 3.7),并且不添加 system prompt。
结果显示,Grok 4.1 的推理模式和非推理模式位居榜单前两名。

以下示例展示了 Grok 4.1 对情绪类提示的回应方式:

创意写作
xAI 还在 Creative Writing v3 基准测试上评估了 4.1 系列模型的表现。
在该基准中,模型需要针对 32 个不同的写作提示生成回答,并进行 3 轮迭代。与 EQ-Bench 类似,评分同时基于评分细则(rubrics)和模型对战的归一化 Elo 分数进行计算。
结果显示,Grok 4.1 的推理模式和非推理模式位居基准测试第二和第三名,仅次于早期 GPT 5.1。

以下示例展示了 Grok 4.1 在创意写作提示下的回答方式:

减少幻觉
配备搜索工具的 Fast(非推理)模型能够提供即时答案,但由于推理深度受限、工具调用次数有限,它们更容易出现事实性错误。
在 Grok 4.1 的后训练过程中,xAI 着重降低了信息查询类提示的事实幻觉。随后,xAI 在抽样的生产环境信息查询提示中观察到了幻觉率的显著下降。
xAI 使用来自生产流量的真实信息查询请求,按类别分层抽样评估模型幻觉率。同时,也评测了 FActScore —— 一个包含 500 个关于不同人物的传记类问题的公共基准测试。

更多 Grok 4.1 的技术细节请参阅模型卡:
模型卡地址:https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf
官方博客:https://x.ai/news/grok-4-1#silent-rollout-november-114-2025
.....
#Thought Communication in Multiagent Collaboration
让大模型学会「心灵感应」:基于思维沟通的多智能体合作范式来了
如果多个大模型能读懂彼此的想法,会发生什么?
在 NeurIPS 2025 的 Spotlight 论文 Thought Communication in Multiagent Collaboration 中,来自 CMU、Meta AI 和 MBZUAI 的研究者提出了一种全新的协作方式,让模型不再仅仅依靠语言交流,而是直接共享「思维」。
这项研究提出了 Thought Communication(思维沟通)的概念,让智能体在内部层面传递潜在思维(latent thoughts),实现类似「心灵感应」的合作。
理论上,研究者建立了首个针对多智能体系统的潜在思维可识别性理论,证明即使在非参数设定下,也能从模型状态中恢复出共享与私有思维。实现上,他们据此提出了通用框架 ThoughtComm,使模型能够自动抽取、路由并注入这些潜在思维,从而实现超越语言的直接沟通。
结果显示,这种「思维层交流」不仅在理论上可行,在实践中也显著提升了模型的协作效率与推理能力。
- 论文标题:Thought Communication in Multiagent Collaboration
- 论文链接:https://arxiv.org/pdf/2510.20733
语言不是终点
语言让人类能够协作,但也带着天然的限制。它是线性的、模糊的、不精确的,只能折射出思维的一部分。我们无法直接把脑海里的想法传给别人,只能依赖词语和句子,而这些总会损失细节与语义。
机器则不同,它们没有声带,也不受感官约束。理论上,它们可以拥有一种更高效、更直接的沟通方式,不再依赖语言,而在「思维层」实现连接。
这一点在讨论超级智能时尤为重要。人类的进步源于语言协作,而超人级智能的形成则需要超越语言的协调。个体的推理能力是一部分,群体的共思考能力才是未来智能的核心。
然而,目前的大语言模型协作系统仍停留在「对话」层面。模型通过生成文本或 token 来交换信息,但这种沟通仍受制于语言的模糊与损耗。许多协作失败,正是因为模型「听到了话」,却没理解思维。
于是问题变得清晰:
如果语言有天花板,机.器.之间该如何真正理解彼此?
思维沟通:从传递话语到传递想法
答案其实很自然:让模型直接共享「思维」。
最直接的沟通方式不是解释「我说了什么」,而是传递「我在想什么」。就像人类的行为由心理状态驱动一样,大模型的行为也由内部的潜在表征控制,那些表征编码着目标、假设和推理逻辑。
如果能把这些潜在思维识别并共享出来,模型就能跳过语言的冗余与歧义,直接交换理解本身。思维沟通不依赖显式 token,而是传递意图和理解的内在结构。
在多智能体系统中,一些思维是共享的,另一些则是私有的。识别并结构化地共享这些思维,可以让模型更快达成共识、发现分歧、整合多样的推理思路。
理论:读出模型的「内心世界」

图中展示了多智能体系统的思维生成过程。面对同一个问题 「去机场的最佳方式是什么?」,所有智能体都会考虑一组潜在思维,包括「是否带行李」、「速度」和「准点性」等因素。这些思维经过生成函数映射,形成每个智能体特有的状态,并最终导致不同的决策。比如,Agent 1 更关注「行李」和 「速度」,因此选择开车;而 Agent 2 更关注「速度」和「准点」,于是选择乘火车。该示例体现了共享与私有思维如何共同决定智能体的行为。
思维并不是模型某一层激活的直接结果,也不是观测数据的简单表征。它更像是隐藏在这些表征之下、驱动整个生成过程的深层因素。要让模型真正理解彼此的思维,首先需要一个可靠的理论基础。
研究者将这一过程形式化:所有智能体在第 t 轮沟通前的状态为 H_t,这些状态由一组潜在思维 Z_t 通过某个未知的生成函数 f 得到,即

。
为了确保模型能够从状态中恢复出真实的潜在思维,而不仅仅是外部世界的某种投影,研究者建立了严格的可识别性理论。他们通过数学证明,只要在系统中引入稀疏约束,即使在复杂的现实场景中,也能从模型的可观测行为中稳定地恢复出这些隐藏的思维。
更进一步,该理论不仅能够识别出潜在思维的存在,还能区分哪些思维在模型之间是共享的,哪些属于个体独有。换句话说,研究者能够重建每个模型的真实推理结构,并揭示模型之间的依赖关系 —— 谁在共享想法,谁在独立思考。
这意味着模型之间不再只是「听见」彼此的回答,而是真正能够「理解」对方的思维;它们清楚哪些内容值得交换,哪些应当保留,从而让沟通变得更精准、更高效。
框架:ThoughtComm

图中概述了 ThoughtComm 的整体流程。在每一轮通信中,各个智能体将自身的模型状态输入到带稀疏正则的自编码器中,映射到一个共享潜在空间,得到潜在思维表示。系统根据恢复出的依赖结构,选择性地将不同维度的思维路由给相关智能体,使其区分哪些思维是共享的、哪些是私有的。随后,这些潜在思维通过前缀适配的方式注入回模型中,引导下一轮推理与生成。新的响应再作为下一轮输入,从而实现超越语言消息交换的多智能体协作。
基于这一理论,研究者设计了通用框架 ThoughtComm,让大模型能够在「思维层」上沟通。整个系统分为三步:
1. 思维抽取
通过带稀疏约束的自编码器,从模型状态中学习潜在思维表示。系统自动区分共享与私有思维,并恢复思维与智能体之间的结构关系。
2. 思维路由
根据共享结构决定哪些思维要传播、哪些保留本地,并引入「同意度」机制来衡量共识程度,动态调整共享强度。
3. 思维注入
最后,这些思维被重新注入模型,通过前缀适配的方式影响下一轮生成。模型因此不仅「看到」文本,还能感受到其他智能体的推理倾向。
整个过程无需修改模型主干,只需轻量的适配模块即可实现,具有良好的通用性与扩展性。
实验:让模型真的「读心」

实验结果
研究者在多种复杂推理任务上测试了 ThoughtComm,包括 MATH 与 GSM8K。这两类任务包含复杂的数学问题,需要多步逻辑推理与精确的中间思考,能够充分验证「思维层沟通」的有效性。
实验覆盖五种主流模型:Qwen3 0.6B / 1.7B、Phi-4-mini、Llama3 8B、DeepSeek-R1-distill-Llama-8B。
结果显示,ThoughtComm 在所有模型和任务上都显著优于单模型推理和传统多智能体协作方法。以 Qwen3 1.7B 为例,MATH 准确率达到 93.0%,较基准模型大幅提升;在 GSM8K 上,思维沟通同样带来明显收益。
此外,实验还发现模型之间的一致性提高,推理过程更稳定。这表明,当智能体能够共享「思维」,协作不仅更高效,也更具稳健性。
讨论:通向真正的「集体智能」
思维沟通的核心,不只是提升性能,更在于开启一种新的智能形态。
当智能体能直接交流思维,它们之间的关系就从「对话」变成了「共思考」。语言沟通传递结果,而思维沟通传递原因。这让信息传递更密、更准、更高效,也让模型在协作中实现更深层次的理解与协调。
这或许是多智能体智能演化的关键转折点:从行为层的配合迈向认知层的协同。未来的集体智能,不再是多个模型简单协作完成任务,而是形成真正的「心智共振」。
总结
为了让大模型学会通过「思维」进行沟通,研究者将多智能体协作建模为一个潜变量学习问题,提出了可识别的理论结果,并基于此构建了 ThoughtComm 框架。它使智能体直接共享、路由、注入潜在思维,从而实现超越语言的协作。
这项工作揭示了一个更深层的方向:智能的核心不只是行为,而是思维。
理解并共享思维,或许正是迈向真正人工集体智能的起点。
.....
#Memory Layers at Scale
Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE
预训练语言模型通常在其参数中编码大量信息,并且随着规模的增加,它们可以更准确地回忆和使用这些信息。对于主要将信息编码为线性矩阵变换权重的密集深度神经网络来说,参数大小的扩展直接与计算和能量需求的增加相关。语言模型需要学习的一个重要信息子集是简单关联。虽然前馈网络原则上(给定足够的规模)可以学习任何函数,但使用联想记忆(associative memory)会更高效。
记忆层(memory layers)使用可训练的键值查找机制向模型添加额外的参数,而不会增加 FLOP。从概念上讲,稀疏激活的记忆层补充了计算量大的密集前馈层,提供了廉价地存储和检索信息的专用容量。
最近,Meta 的一项新研究使记忆层超越了概念验证,证明了它们在大型语言模型(LLM)扩展中的实用性。
- 论文标题:Memory Layers at Scale
- 论文地址:https://arxiv.org/pdf/2412.09764
- 项目地址:https://github.com/facebookresearch/memory
在下游任务中,通过改进的记忆层增强的语言模型的性能优于计算预算两倍以上的密集模型,以及在计算和参数相当的专家混合(MoE)模型。
这项工作表明,当记忆层得到充分改进和扩展时,可以用于增强密集神经网络,从而带来巨大的性能提升。通过用记忆层替换一个或多个 transformer 层的前馈网络(FFN)来实现这一点(保持其他层不变)。这些优势在各种基本模型大小(从 1.34 亿到 80 亿参数)和内存容量(最多 1280 亿参数)中都是一致的。这意味着存储容量实现了两个数量级的飞跃。
记忆增强架构
可训练的记忆层类似于注意力机制。给定一个查询

,一组键

,以及值

。输出是值的软组合,根据 q 和相应键之间的相似性进行加权。
在使用时,记忆层与注意力层之间存在两个区别。
- 首先,记忆层中的键和值是可训练参数,而不是激活参数;
- 其次,记忆层在键和值的数量方面通常具有更大的规模,因此稀疏查询和更新是必需的。
该研究将键-值对的数量扩展到数百万。在这种情况下,只有 top-k 最相似的键和相应的值被输出。一个简单的记忆层可以用下面的等式来描述:

其中,I 是一组指标,

,输出

。
扩展记忆层
扩展记忆层时面临的一个瓶颈是「查询 - 键」检索机制。简单的最近邻搜索需要比较每一对查询 - 键,这对于大型记忆来说很快就变得不可行。虽然可以使用近似向量相似性技术,但当键正在不断训练并需要重新索引时,将它们整合起来是一个挑战。相反,本文采用了可训练的「product-quantized」键。
并行记忆。记忆层是记忆密集型的,主要是由于可训练参数和相关优化器状态的数量庞大导致的。该研究在多个 GPU 上并行化嵌入查找和聚合,记忆值在嵌入维度上进行分片。在每个步骤中,索引都从进程组中收集,每个 worker 进行查找,然后将嵌入的部分聚合到分片中。此后,每个 worker 收集与其自身索引部分相对应的部分嵌入。该过程如图 2 所示。

共享记忆。深度网络在不同层上以不同的抽象级别对信息进行编码。向多个层添加记忆可能有助于模型以更通用的方式使用其记忆。与以前的工作相比,该研究在所有记忆层中使用共享记忆参数池,从而保持参数数量相同并最大化参数共享。
该研究通过引入具有 silu 非线性的输入相关门控来提高记忆层的训练性能。等式 (1) 中的输出变为:

其中 silu (x) = x sigmoid (x),⊙是元素的乘法(参见图 3)。

实验及结果
首先,该研究固定记忆大小,并与密集基线以及参数大致匹配的 MOE 和 PEER 模型进行比较。
从表 1 中我们可以看出,Memory 模型比密集基线模型有了大幅改进,在 QA 任务上的表现通常与密集参数数量为其两倍的模型相当。
Memory+ (有 3 个记忆层)比 Memory 有了进一步的改进,其性能通常介于计算能力高出其 2 到 4 倍的密集模型之间。
对于相同数量的参数,PEER 架构的表现与 Memory 模型相似,但落后于 Memory+。MOE 模型的表现远不及 Memory 变体。

图 4 显示了不同大小的 Memory、MOE 和密集模型在 QA 任务上的扩展性能。

图 1 表明 Memory+ 模型的实际 QA 性能随着记忆大小的增加而不断的增加。

在 6400 万个键(1280 亿个记忆参数)下,1.3B Memory 模型的性能接近 Llama2 7B 模型,后者使用了 10 倍以上的 FLOPs(见表 2)。

最后,本文在 8B 基础模型和 4096^2 个记忆值的基础上 (64B 记忆参数)扩展了 Memory+ 模型,表 2 报告了结果,发现记忆增强模型的表现明显优于密集基线。
.....
#GeneralDyG
轻松进行动态图异常检测,南洋理工提出GeneralDyG
此项研究成果已被 AAAI 2025 录用。该论文的第一作者是南洋理工大学计算与数据科学学院 (CCDS) 的硕士生杨潇,师从苗春燕教授,主要研究方向是图神经网络。该论文的通讯作者为南洋理工大学百合研究中心的瓦伦堡 - 南洋理工大学校长博士后研究员赵雪娇;申志奇,南洋理工大学计算与数据科学学院高级讲师,高级研究员。
- 论文标题:A Generalizable Anomaly Detection Method in Dynamic Graphs
- 论文链接:https://arxiv.org/abs/2412.16447
- 代码:https://github.com/YXNTU/GeneralDyG
研究背景与问题描述
随着动态图数据的广泛应用,它在社交网络、电商和网络安全等领域展现了强大的建模能力。然而,与静态图相比,动态图因节点和边的动态演变特性,给数据分析带来了更大的挑战,尤其是在异常检测方面。异常检测是保障系统安全和数据完整性的关键任务,旨在识别显著偏离正常模式的异常事件,例如欺诈交易、社交媒体垃圾信息和网络入侵等。及时发现这些异常对系统的可靠性和安全性至关重要。
基于深度学习的动态图异常检测方法已取得一定进展,例如利用图神经网络提取结构信息或通过时序模型捕获时间依赖性。然而,这些方法在通用性方面仍存在显著不足。具体而言,它们通常难以适应不同的数据集和任务场景,难以高效捕获动态图中局部与全局的复杂特征。此外,一些方法在处理大规模动态图时计算成本较高,异常事件的编码也不够准确,导致在新场景中的检测性能显著下降。
方法设计
本文针对动态图异常检测中的数据分布多样、动态特征捕捉困难以及计算成本高三大挑战,提出了一种通用方法(GeneralDyg)。首先,为应对数据分布多样问题,我们提取节点、边及其拓扑结构的关键信息,从而适应不同数据集的复杂特征分布。其次,为解决动态特征捕捉的难题,我们结合全局时间动态和局部结构变化,深入建模动态图中的多尺度动态模式。最后,为降低计算成本,我们构建了一种轻量化框架,能够高效捕获关键动态特征,同时显著提升计算效率。
如图 1 所示,本文方法由三部分组成,每部分针对上述挑战提供了解决方案:
(a)时间 ego-graph 采样模块,通过构建紧凑的子图结构有效应对计算资源限制;(b)图神经网络提取模块,全面捕获动态图的节点与边的多样性和复杂结构;(c)时间感知 Transformer 模块,有效融合全局和局部动态特征。

图 1 :动态图异常检测框架 GeneralDyG 的整体架构
(a)时间 ego-graph 采样模块旨在通过构建紧凑的子图结构有效缓解动态图大规模数据带来的计算压力。具体来说,该模块基于中心事件,通过 k-hop 算法提取其周围交互历史,构成时间 ego-graph。k-hop 算法的设计考虑了事件间的时间顺序与拓扑关系,确保采样过程兼顾时间动态与结构特性。此外,为了捕捉事件之间的层级关系,该模块引入了特殊标记(如层级标记符号)来分隔不同层次的交互信息。这些标记能够帮助 Transformer 模块更好地识别与学习时间序列中的层级动态。此外,该模块还通过限制 k 的范围来控制采样的规模,从而在信息完整性与计算效率之间取得平衡。这样的设计在保留动态结构信息的同时,显著降低了计算复杂度。
(b)在时间 ego-graph 的基础上,本文设计了一种新的图神经网络(TensGNN)来提取丰富的结构信息。TensGNN 通过交替应用节点层和边层来实现特征信息的传播与更新,从而在节点特征和边特征之间构建强关联。具体而言,节点层利用节点的邻接矩阵和特定拉普拉斯矩阵进行卷积运算,同时结合边的特征更新节点表示。相应地,边层则基于边的邻接关系和节点的状态更新边的特征表示。这种交替堆叠的方式能够更好地捕捉动态图中的局部与全局特性。此外,该模块引入了轻量化的算子,避免了冗余计算,在大规模数据集上也能保持较高的计算效率。
(c)时间感知 Transformer 模块:最后,GeneralDyG 通过时间感知 Transformer 模块整合时间序列和结构特征。在自注意力机制中,模型分别利用 Query 和 Key 编码图的拓扑结构信息,而将 Value 保留为原始事件特征,以确保异常检测的准确性。通过这一模块,模型能够有效捕获动态图中全局的时间依赖性和局部的动态变化,从而实现对复杂异常模式的准确建模。
实验验证
本文在节点级别(node level)和边级别(edge level)两个层面上进行了实验评估,使用了四个真实数据集:SWaT 和 WADI 用于节点级别异常检测,Bitcoin-Alpha 和 Bitcoin-OTC 用于边级别异常检测。
我们将 GeneralDyG 与 20 种主流基线方法进行对比,这些基线方法涵盖了图嵌入(如 node2vec、DeepWalk)和异常检测(如 TADDY、SAD、GDN)两大类别。实验通过 AUC、AP 和 F1 等指标全面评估模型性能,并在不同异常比例(1%、5%、10%)下进行了系统性测试。结果表明,GeneralDyG 在所有数据集上均显著优于现有方法,展现了卓越的通用性与检测能力,如图 2 所示。

图 2 Bitcoin-Alpha 和 Bitcoin-OTC 数据集上的边异常检测性能对比。
总结
总的来说,我们提出了一种通用的动态图上异常检测方法 GeneralDyg,解决数据分布多样、动态特征捕获难和计算成本高三大核心问题,GeneralDyG 展现了卓越的通用性和鲁棒性,为动态图异常检测提供了一种高效且通用的解决方案。详细方法流程以及实验结果请参考原文。
.....
#大模型微调项目 / 数据集调研汇总
总结了一些热门的大模微调项目的亮点以及数据集。
本文主要总结本人最近跑过的大模型微调项目。
相信大家这几个月都会不断新出的微调大模型项目刷屏,频率基本每天都有高星的项目诞生,部分还宣称自己达到GPT的百分之多少,一方面弄得大家过度乐观,一方面弄得大家焦虑浮躁。
面对这种情况,我的建议是「多动手」。把这些项目 clone 下来,跑跑代码,把项目用到的数据集下载下来做做EDA,把项目训练完的checkpoint下载下来,用自己的例子跑跑。多接触反而心态平定了许多。
回归正题,这篇博文聊聊一些热门的大模型微调项目。首先我觉得大量这些项目的诞生是源于以下三个节点:
- 节点1 ChatGPT:由于 ChatGPT 惊人的效果,让大家意识到AGI的可能性,并重视起了大模型+开放指令微调+强化学习这种三阶段范式
- 节点2 LLaMA:LLaMA 是 Meta 在今年2月份推出的基座模型,宣称 LLaMA-13B 在大多数基准测试中超过了 GPT-3 (175B),而 LLaMA-65B 与最好的模型 Chinchilla70B 和 PaLM-540B 相比非常有竞争力。此外,该项目还开源了7B、13B、30B和65B版本。
- 节点3 Stanford Alpaca:在 LLaMA 的基础上,用 Self-Instruct 去制造了52K的指令微调数据集,最后发现训练出来的模型确实是能听懂指令的,能看出ChatGPT的雏形
这三个节点加起来相当于证明了一条可以低成本复现的道路,然后大量的人沿着这条道路去进行时间。
再来说说这些项目的,本质都是:底座模型(ChatGLM/LLaMA/BLOOM)+ 微调数据(主要是指令微调数据集) + 高效微调方案(Fulltuning/Lora/Freeze/Ptuning)。
项目
这些介绍几个我认为比较好的,好的定义是:Github star 比较高的,持续在维护更新的,同时作者对自己的项目做了详细解析和深入研究的。
ChatGLM-6B
清华唐杰老师团队
项目: https://github.com/THUDM/ChatGLM-6B
Blog: https://chatglm.cn/blog
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于GLM架构,具有62亿参数。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约1T个标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。为了方便下游开发者针对自己的应用场景定制模型,项目还开源了基于 P-Tuning v2(https://github.com/THUDM/P-tuning-v2) 的高效参数微调代码。
亮点:
- GLM 是一种 Prefix decoder 的结构,而目前大模型采用的主流结构是 Casual decoder,可以说GLM走出了自己的道路,但究竟那种结构更优,需要更科学的评定
- 1T 个token的中英文预训练,对比 175B 的 GPT3 训练了300B个 token,540B的 PaLM 训练了780B个 token,而 ChatGLM-6B 的底座只是6B的模型,却训练了1T个 token,让人有种憧憬,用大数据训练小模型,是否能达到小数据训练大模型的效果
- 项目号称经过监督微调、反馈自助、人类反馈强化学习
但是 ChatGLM-6B 没有公布它的训练细节和语料是怎么做的,有人说 ChatGLM-6B 的 IFT 也是通过 self-Instruct 得到的,这也不是空穴来风,相信用过 ChatGLM-6B 的人都会觉得,ChatGLM-6B的回复风格跟ChatGPT十分相似。
Alpaca-CoT
中科院的学生做的项目
项目:https://github.com/PhoebusSi/Alpaca-CoT/blob/main/CN_README.md
多接口统一的大模型指令微调平台。该项目做了一个框架,利用这个框架,可以方便地用不同的底座模型+不同的指令数据集进行大模型的微调,不足的地方是,只提供了使用Lora的训练方式。除此之外,该项目主打一个思维链 (CoT),把CoT数据集加入到指令微调中,在项目中还举了很多案例,证明加入了CoT数据集后对模型的提升作用。
亮点:
- 统一了多个底座模型,包括有 LLaMA、ChatGLM、BLOOM
- 整理统一了其他公开项目的数据集,如果大家想梳理下现在市面上开源的IFT数据集,建议可以通过这个项目了解
- 项目集成了 Int8-bitsandbytes、Fp16-mixed precision、LoRA(hugging peft库)等高效训练的方法
- 首个加入了 CoT 训练后的效果研究
BELLE
贝壳团队开源的项目
项目:https://github.com/LianjiaTech/BELLE
项目基于 Deepspeed-Chat 项目,包括全量参数微调(fine-tuning)和基于LoRA的参数高效微调。
亮点:
- 开源了一个规模巨大的中文IFT数据集,现在加起来有300万以上,基本都是通过Self-Instructi得到
- 做了一系列的实验,截止日前已发了4篇技术报告
- 《Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences》
- 《Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases》
- 《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》
- 《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》
建议大家把它们的数据集下载下来看看,并把这4篇实验报告都看一次。虽然这些实验并不是很客观,例如最后的test集也是用的belle自己的,然后用的是GPT3.5打分。不过整体的实验思路和实验结果还是可以大致参考的。
Chinese-LLaMA-Alpaca
科大讯飞&哈工大团队,很出名的团队,很多耳熟能详的中文预训练模型,如RoBERTa、MacBERT、PERT都出自它们团队
项目:https://github.com/ymcui/Chinese-LLaMA-Alpaca
该项目包括词表扩充、继续预训练和指令精调三部分,其中词表扩充的代码参见 merge_tokenizers.py ;预训练和指令精调代码参考了 transformers中的 run_clm.py 和 Stanford Alpaca 项目中数据集处理的相关部分。
亮点:
- 相对完整的流程,不紧紧是指令微调这一步,还包括词表扩充、继续预训练
- 针对LLaMA模型扩充了中文词表,提升了中文编解码效率。这一步是我觉得假如想用LLaMA去做中文必须要做的一个事情,因为原生LLaMA对中文支持不好,很多中文词不在它们的词表中,会被切成两个token,极大影响了效果
- 对中文继续做了20G语料的预训练,这个预料规模一看就很熟,它们开源的RoBERTa、MacBERT也是在这个规模的预料上训练得到的
- 在预训练介绍,分成两部分,第一阶段:冻结transformer参数,仅训练embedding,在尽量不干扰原模型的情况下适配新增的中文词向量,第二阶段:使用LoRA技术,为模型添加LoRA权重(adapter),训练embedding的同时也更新LoRA参数。这给大家做高效继续预训练的提供了一个方向。
StackLLaMA
项目:https://huggingface.co/spaces/trl-lib/stack-llama
Blog: https://huggingface.co/blog/stackllama
Hugging Face的研究人员发布的一个70亿参数的模型——StackLLaMA。这是一个通过人类反馈强化学习在LLaMA-7B微调而来的模型。
个人感觉有价值的是Hugging Face研究人员发布的一篇Blog:用RLHF训练LLaMA的实践指南。
亮点:
- 博客更像是一个教程和指南,介绍如何使用RLHF来训练模型,而不是主要关注模型的性能表现
- 重点介绍了指令微调和强化学习部分,其中强化学习部分利用的是StackOverflow构建的数据集,利用网民们的upvotes去进行评分,给我们构造强化学习数据集部分提供了一个思路,能否利用微博点赞、知乎点赞等数据去构造一个中文的强化学习数据集呢?
数据集
介绍几个比较有特色的中文数据集
Alpaca-CoT
对大部份中英文的开源IFT数据集进行了整理和汇总,包括有 Guanaco、belle、firefly、COIG,加上项目自己开源的CoT数据集。假如不想自己去疏离数据集的话,就看这个它们整理好的就行了。
Alpaca_GPT4
https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
微软论文《INSTRUCTION TUNING WITH GPT-4》开源的数据集。亮点是利用 GPT-4 生成的 Alpaca 数据,并做了中文的翻译。由于GPT4比GPT3.5强大很多的,因此质量自然会更高。
belle_data
https://github.com/LianjiaTech/BELLE/tree/main/data/10M
规模很大、类型也较多的数据集
- School Math:包含约25万条中文数学题数据,包含解题过程。
- Multiturn Chat:包含约80万条用户与助手的多轮对话。
- Generated Chat:包含约40万条给定角色的多轮对话。
- train_2M_CN:包含约200万条与Alpaca类似生成的多样化指令任务数据。
这些数据都是由ChatGPT生成,部分质量是不过关的,需要自己好好筛选一下。
COIG
https://huggingface.co/datasets/BAAI/COIG
规模很大,类型很全的数据集
- 翻译指令数据集:基于开源数据集精选得到,并通过DeepL高质量翻译、并进行人工验证+人工修正
- 考试指令数据集:中国高考、中考、公务员考试得到,可用作思维链 (CoT) 语料库
- 价值对齐数据集:「中文世界的价值观念不同于英语世界的价值观」,作者构建了与普世华人价值观match的数据集,也是通过 self-instruct 生成的
- 反事实校正数据集:构建了反事实校正多轮聊天数据集(CCMC)。CCMC 数据集包括学生和老师之间的 5 轮角色扮演聊天,以及他们所参考的相应知识。教师根据基本事实知识生成响应,并在每一轮中纠正学生问题或陈述中的事实错误或不一致之处
- 代码指令数据集:Leetcode 数据集,包含有代码到文本和文本到代码
总体来说,这份数据集质量非常高,需要我们好好根据任务进行挑选。
个人感悟
数据清洗方案如何更好?
- 多样性:例如在 Self-Instruct 论文中,会使用 ROUGE 指标,过滤掉生成的指令与已有指令重合的指令。
- 高质量:使用 ChatGPT 生成数据,自然训练出来的模型就是模仿 ChatGPT 的回复风格。然而,ChatGPT(指 GPT3.5)自身的缺点包括浓浓的机翻味道、文绉绉的、不够活泼可爱,其次中文生成不够流畅。一种思路是使用 PPL 等指标筛选出生成的指令和回复,计算困惑度 Perplexity。Perplexity 低的通常是不流畅的,可以将低于一定阈值的去掉。
- 启发式:例如过滤掉问题是中文但回答是英文的,过滤掉生成的指令包含需要外部知识库的情况。
更多的清洗方案,可以多看看开源数据集中它们是如何处理的,留意里面的数据清洗方式。
哪种微调方案比较好?
从 BELLE 的技术报告《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》中可以看出,Full-Tuning 效果应该是最好的,但 Full-Tuning 需要机器资源多,训练时间长。其次是 P-TuningV2/Lora/Freezing 的话,貌似是 P-TuningV2 效果最佳,具体可以看这个https://github.com/liucongg/ChatGLM-Finetuning。然而,这些比较并不严谨,例如每个方案都有自己的超参,是否每个方法都做了超参搜索。
强化学习部分重要吗?
非常重要。现在发现 ChatGLM-6B 的回复虽然一看过去感觉像模像样,但仔细看会发现胡言乱语的情况很严重,也即幻觉问题。也有人会另辟蹊径,例如 COIG 中的 CCMC 数据集,通过将这些数据集加入到 IFT 训练中,让模型学习纠正不正确回复的能力。还有在 prompt 中加入“请不要生成虚假的、自我捏造的回复”等字眼,目的是让模型在生成更加谨慎。然而,这些都是折中的办法。个人认为减少幻觉问题这一步,还得靠强化学习。希望未来能看到更多构建强化学习数据和开源强化学习数据集、训练的方案。
.....
#CMU等曝光GitHub「地下产业链」
450万个Star都是刷的
GitHub平台上日益严重的虚假star,不仅威胁到开源项目的透明度和声誉,还可能被利用于传播恶意软件和钓鱼攻击。CMU团队通过开发工具StarScout,系统分析了虚假star的特征、趋势及其对软件供应链安全的潜在影响。
什么?Github的star居然都能是假的了,甚至数量达到了惊人的450万!
大多数的研究人员都会将自己的项目发布到Github中,以增加曝光度。项目的star也一直被大家视作是用来检验项目热度的关键指标。
但是CMU团队新近研究StarScout却实锤了Github中疑似有450万star全都是假的!
很多项目存在恶意账户去刷star,以来吸引注意,甚至在对应的项目中注入恶意代码,以攻击那些想要复现项目的研究人员。
现在有15%的可能性,一个获得50个star的仓库涉及star造假。
论文链接:https://arxiv.org/abs/2412.13459
就像著名美国心理学家Donald T. Campbell所说,「任何量化社会指标在社会决策中用得越多,它就越容易腐败,就越容易扭曲和腐败它打算监测的社会进程」。
Github里高star项目这种足以风靡全球的吸引力,自然也逃不过如此规律。
如下关于GitHub仓库star数据的图表,展示了从2019年8月到2024年8月期间,每月获得至少50颗星的仓库数量(蓝色折线)以及每月疑似存在虚假星级活动的仓库数量(橙色柱状图)的变化情况。
- 蓝色折线(#Repos>=50 star):代表每月获得至少50颗star的GitHub仓库数量。
- 橙色柱状图(#Repos w. Suspected Campaigns):表示每月疑似存在虚假star活动的仓库数量。
从图表中可以看出,虽然获得至少50颗star的仓库数量总体较为稳定,但疑似存在虚假star活动的仓库数量在近年来呈现明显上升趋势,尤其是在24年。
如果你在谷歌中搜索「buy GitHub star」,就会显示出众多这方面的服务商。其中每个star的价格,最低购买数量,star到项时间都如下表一样,明码标价。
而更令人匪夷所思的是,很多服务商甚至宣称可以在数小时之内,甚至立刻就能让项目具有足够的star。
因此,GitHub库可以通过购买star来用于黑客攻击、发送垃圾邮件、求职简历造假,甚至去传播恶意软件而非法营利等有安全威胁的恶性事件。
例如这个拥有111颗star的项目,但其中109颗实际都是假的。项目的README文件(左上图)建议使用区块链应用程序,但如果执行,其代码(底部图)会使用隐藏的spawn函数来调用远程文件去执行脚本(名称为看似合法的JavaScript包)来窃取你的加密货币。
令人哭笑不得的是,项目有唯一的一个issue,大概是由受害者创建的,他警告这里隐藏着恶意软件。
而真正的开发者则对这种现象十分的不理解与抵触。
「我很困惑为什么有人会想买假的GitHub star。我的意思是,有这么多假账户而不是真实的人关注你又有什么意义。」
如何判定star是假的?
下述两幅图展示了涉及到假star的GitHub库对应的名称数据,分别为已删除的库和仍然存在的库。
可以发现,auto、bot、2024、telegram、free等都是涉嫌star欺诈的常见库名称。
而大多数已被删除的库似乎都是关于盗版软件的(加密货币机器人pixel-wallet-bot-free、Solana-Sniper-Bot)或游戏作弊(GTA5-cheat)。
下表描述了参与star欺诈活动的GitHub账户主要有哪些特征,可以看出其中没有GitHub组织、没有公司关系和没有个人网站的帐户所占比例最高。
也就是说,如果一个账户具有默认头像,也不属于GitHub上的组织,并且在其个人资料中没有任何从属关系或网站,他的项目仓库名还涉及到了上面两个词云图中的高频词的话,那么这个账户对应的仓库很大概率涉嫌star欺诈活动,甚至意图进行恶意欺诈和黑客攻击。
而就star交易来讲,从以往研究文献中可知,GitHub star黑市至少以三种不同方式运作:
- 商家可以在自己的网站、即时通讯应用程序或淘宝等电子商务平台上公开出售GitHub star。
- GitHub用户可能会组建交换平台(如GitStar或即时通讯群组),然后对彼此的GitHub仓库进行互star操作。
- 一个GitHub仓库可能会直接用礼物激励其广告活动的受众为仓库加star(如OceanBase所发生的情况)。
所有这些运作方式似乎都违反了GitHub的可接受使用政策,该政策禁止以下行为:
- 不真实的互动,如虚假账户和自动的不真实活动
- 排名滥用,如自动加星或关注
- 由加密货币、代币、积分、礼物或其他赠品等奖励所激励的活动
在上述讨论的所有三种情况下,研究者认为这些购买、交换或受激励而获得的 GitHub star是虚假的,因为它们是人为抬高的,并不真正代表真实GitHub用户对仓库的任何真实赞赏、使用或收藏。
StarScout设计
StarScout的概述图
从整体上看,StarScout在GHArchive上应用分布式算法,以从GitHub历史中定位两种异常star行为的特征:低活动特征和同步特征,这两者很可能与虚假star相关。
具体来说,低活动特征用于识别那些对一个或几个代码仓库star后便不再活跃的账户的stars;而同步特征识别来自n个账户集群的stars,这些账户在短的∆t时间窗口内反复一起对另一个包含m个仓库的集群进行star。
在虚假star与真实star之间划定明确边界并不容易,某些特殊情况,例如一个GitHub教程仓库要求读者为其点star作为教程的一部分,会增加这种区分的复杂性。
StarScout使用一个由用户和代码仓库组成的双向图(Stargazer Bipartite Graph)来处理这些特征的检测。
在低活动特征的检测中,StarScout会识别仅有一个WatchEvent(即只为一个GitHub仓库点star)以及在同一天最多一个附加事件(如ForkEvent)的账户。
尽管被检测的账户可能是由虚假star商控制的一次性机器人账户,但也可能是误判的真实用户,例如某人本来是合法注册的真实账户,但是在为一个仓库点star后就将自己的GitHub搁置了。
为了缓解这一问题,StarScout只考虑那些至少拥有50个被怀疑为虚假star的代码仓库。
这种行为是GitHub star商无法规避的,因为无论他们采用何种混淆方法,这些账户通常都是新注册的一次性账户,或者是在短时间内为多个仓库点star以满足交付承诺。
从数学角度来看,GitHub上的所有star可被建模为一个二分图:每个用户和代码仓库是一个节点,它们的star关系构成边,而star时间则作为边的属性。
如果一个虚假star商控制了一组n个账户,在承诺的交付时间内为m个代码仓库点star,那么它们将在star双向图中留下所谓的<n, m, ∆t, ρ>时间上连贯的近似二分核。
之前的一些研究也已表明,这种近似二分核于在线社交网络中很难自然形成,并且与欺诈活动高度相关。
然而,找到最大二分核的问题是NP难的。
因此,StarScout重新实现了CopyCatch,这是一种最先进的分布式局部搜索算法,曾用于Facebook检测虚假点赞。通过该算法,StarScout检测GitHub star双向图中的近似二分核。
CopyCatch从一组种子仓库(所有具有≥50颗star的仓库)开始;然后它迭代地生成一个时间中心,并增加n和m,为每个种子仓库在该时间中心内找到一个局部最大的近似二分核。最后,大于预定义n和m阈值的二分核将被视为虚假star。
虽然处理低活动特征和同步特征的两种启发式方法能够识别GitHub star数据中的显著异常模式,但并不能假定每个获得虚假star的代码仓库都是主动去获取这些star的。
例如,对于非常受欢迎的代码仓库,虚假star可能显得毫无意义。但免不了虚假账户可能故意为流行代码仓库点star,以规避平台检测。因此,后处理步骤旨在仅保留那些因虚假star激增而受益显著的代码仓库。
为此,StarScout汇总了每月的star数,并寻找符合以下条件的代码仓库:
(1) 至少有一个月获得超过50个虚假star,且虚假star比例超过50%;
(2) 所有时间段的虚假star比例(相对于所有star)超过10%。
StarScout将这些代码仓库视为发起虚假star的代码仓库,并将激增月份中点star的账户标记为参与虚假star活动的账户。
最终,StarScout在22,915个代码仓库中检测到453万个虚假star,这些star由132万个账户创建。
截至2024年10月,StarScout检测到并已在GitHub上删除的仓库/账户的百分比
与基准删除比例(仓库为5.84%,用户为4.43%)相比,已检测的仓库和账户的删除比例异常较高:虚假star活动中大约91%的仓库和62%的疑似虚假账户已被删除。
通过对GitHub事件分布的比较分析,研究人员发现,存在虚假star活动的仓库和账户往往更倾向于单一的star操作,其他类型活动事件的数量相较于普通仓库明显更少。
而且就算是在star活动数量上两者相近,但存在虚假star活动的账户和仓库通常仅有少量的Fork、Push和Create活动,而几乎没有Issue、PR和Comment活动。这主要是因为后三种活动相较于前三种活动更难以伪造。
假star真能以假乱真,提高热度吗?
研究者也对于假star是否能够像真star一样拥有「马太效应」进行了研究。
研究的目的探索假stars是否也能通过提高热度,以假乱真来吸引更多的用户去给出真实的star。
他们针对GitHub stars的影响制定了以下两个假设:
- H1:积累真实的GitHub星级将有助于GitHub仓库在未来获得更多真实的 GitHub 星级。
- H2:积累虚假的GitHub星级将有助于GitHub仓库在未来获得更多真实的GitHub星级,但效果不如真实星级强。
为了检验这两个假设,研究者通过向模型添加固定效应或随机效应项,稳健地估计了自变量对未观测到的异质性(即可能影响结果变量但未在模型中测量的因素)的纵向影响。
从上表中可以看出,H1假设得到了明确支持:根据固定效应模型,在保持所有其他变量不变的情况下,月t-1真实stars增加1%与月t真实星级预期增加0.36%相关。
类似地,也可以预测出从月t到月t+1真实stars能够增加0.36%。而该效应在月t+2则降至0.15%,在随后的所有月份降至0.11%,但效应始终为正。
换句话说,拥有更多真实stars的仓库在未来往往也会获得更多真实stars,这与社交网络中普遍存在的「富者愈富」现象相呼应。
另一方面,H2假设仅得到部分支持:在保持所有其他变量不变的情况下,月t虚假stars增加1%与月t+1真实stars预期增加0.08%以及月t+2真实stars预期增加0.04%相关。
换句话说,虚假stars在接下来的两个月内对吸引真实星级确实具有统计学上显著且纵向递减的正向效应,但该效应比真实星级的效应小三到四倍。
然而,月t虚假stars增加1%与月t+2及之后所有月份真实星级平均预期减少0.05%相关。
总的来讲,购买假star可能在短期内(即两个月以内)能够帮助一个仓库获得真实的关注,但其效果比真实的star小3到4倍。而且从长期来看,这种做法无疑也会产生深远的负面影响。
最后,研究者强调,GitHub库的star指标并不是一个可靠的高质量指标,所以至少不能是高风险决策的单一参考指标。
同时,研究者也建议开发者不要为推广自己的项目而去伪造star,因为这其实无济于事。
相反,他们建议在开源领域工作的存储库维护者和初创公司创始人应该战略性地专注于促进实际项目的进步,而不是表面上夸大star的数量。也就是说如果项目实际上并不是高质量的和维护良好的,那么即使高star可能会在短期内增加项目的可见度,也终究会迅速被大家排斥。
参考资料:
https://arxiv.org/abs/2412.13459
.....
#天工4.0
昆仑万维「天工4.0」携超强o1/4o霸气上线!强推理+实时语音,免费无限体验
2024 年 12 月中旬,前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 大会上发表了一个惊人的观点:Scaling law 正在放缓,预训练时代即将结束,未来的研究方向将更加注重推理能力的提升。
如果 Ilya 的预测为真,那我们现在其实正在经历一场大模型发展路线的范式转移。
在国内,不少从业者也观察到了类似趋势。昆仑万维董事长兼 CEO 方汉曾提到,「从目前的情况来看,训练的 Scaling Law 其实还是有所放缓的,但是基于慢思考的、推理的 Scaling Law 又开始涌现。」
与此同时,国内外很多公司都在加码多模态。因为随着大模型应用范围的扩大,单一模态的局限性正变得愈发明显,只有实现多模态融合,用户才能获得更丰富的体验。
不过,在国内,能做到两条线齐头并进的公司还非常少。
昆仑万维就是其中之一。2024 年 11 月,报道了这家公司的两个大模型 —— 天工大模型 4.0 o1(Skywork o1)和天工大模型 4.0 4o(Skywork 4o)。
但令人意外的是,2025 年第一周刚过完,这两个模型就一起上线了!而且是全量上线,免费用。
打开天工 web 端网站,由 Skywork o1 加持的各项功能就会出现在眼前。o1 的提升主要体现在推理能力方面,在数学、代码、中文逻辑推理等问题中表现突出。

可以看到,在拿到一个提示后,Skywork o1 不会立马给出答案,而是一步一步去推导正确答案。与之前的「快思考」模型相比,这种「慢思考」的模式更适合去解决现实世界的复杂问题。
天工 web 端地址:https://www.tiangong.cn/ (点开立即体验 Skywork o1)
Skywork 4o 则有着拟人的语音对话能力,而且延迟低、可打断、音色逼真、情感丰富…… 利用这一模型,天工技术团队打造了实时语音对话 AI 助手 Skyo,通过天工 APP 的 Skyo 入口对外开放。
,时长00:38
Skywork o1 表现如何?
当大模型学会复杂推理,一些原本很难解决的数学、代码等问题往往会迎刃而解。Skywork o1 的表现就证明了这一点。
在数学相关的基准测试中,Skywork o1 Preview 在包含数十道数学竞赛级别难度的测试问题的 AMC-23 中达到了 SOTA,在 AIME-24 和由国际数学奥林匹克等高难度数学竞赛题组成的 OlympiadBench 也取得了不错的成绩,仅次于 OpenAI 的 o1-mini。

在代码相关的基准测试中,Skywork o1 的表现也令人印象深刻。例如,在 HumanEval 和 MBPP 测试中,Skywork o1 preview 分别取得了 94.5 和 93.4 的高分,前者仅次于 o1-mini,后者比 o1-mini 高出 4.4 分。

此外,Skywork o1 团队还专门创建了一个私有评估集,用于更好地评估类 o1 模型的思考、规划以及反思等能力。这个评估集包含 20 种问题类型,每种问题类型包含 30 条不同难度或约束条件的问题样本。下表列举了在该评估集上 skywork o1 对比主流大模型的性能差异。结果显示,Skywork o1 的能力显著优于常规通用大模型,表现仅次于 o1-mini。

为了验证模型的真实能力,在 Skywork o1 全量开放的第一天,就进行了测试,全方位考察了该模型覆盖思考、反思和验证过程的推理能力。
hold 多类型推理
首先来看 Skywork o1 能不能应对「海龟汤题」,这是一类没有标准答案的开放性问题,通过设置一个故事情节来推导背后可能的深层原因, 用以考察大模型对故事内容、隐含信息等的筛选、理解、分析、关联性推理能力。
从结果来看,Skywork o1 初步具备了解读这类问题所需的能力,针对故事场景,通过发散性思维与联想给出了它自己以及我们也认为合理的解释。

再考它一道益智类「过河」问题,往往涉及多个人物、动物或物品,在遵守一定规则和限制条件的情况下,最终完成完全渡河的目标。此类问题主要考察大模型的逻辑推理、问题拆解和规划能力,Skywork o1 很擅长此道。

经典的「真话者与说谎者」问题可以用来考察大模型的问题解构与重构、逆向思维能力,Skywork o1 游刃有余,直接抓住了破解的关键点。

公务员行测中的类比推理题对 Skywork o1 来说是手拿把掐,此类问题主要考察大模型对集合概念、内在逻辑关系、跨学科常识知识的综合分析、归纳与判断能力。如下准确 get 到了抽象概念与学术领域相关的类比推理。

2025 管理类联考中的一道逻辑推理题,考察了大模型的演绎推理、信息整合与分析、空间排列理解等多方面的能力。Skywork o1 也能正常应对。

数学能力跃升:考研题不在话下
这次,我们在数学能力测试上给 Skywork o1 上了难度,让它做两道 2025 考研数学一的试题。
首先是一道填空题,考察了概率知识。经过一番缜密的思考与推理,Skywork o1 答对了。

然后是一道单选题,主要考察线性代数中矩阵秩(Rank)的相关概念以及在矩阵乘法中的应用,要求 Skywork o1 分析和验证不同秩关系,并利用已知条件进行推理和证明。从解题过程来看,它具备了比较扎实的线性代数基础和严密的数学推理能力。

不俗的代码能力
目前,Skywork o1 可以解决不同难度和技术领域的代码问题,比如「反转字符串里的单词」。

更复杂的创建智能体:

一番体验下来,我们的最大感受是:从思考全链路、答案详实度与准确度、实际体验等多个维度来看,Skywork o1 称得上全能型高质量选手了。
擅长推理的大模型如何练就?
Skywork o1 在逻辑推理任务上性能的大幅提升主要得益于天工自研的三阶段训练方案。
第一阶段是推理反思能力的训练,数据是其中的侧重点。其实,在 OpenAI o1 推理模型发布之前,Transformer 作者 Aidan Gomaz 等人就提到,AI 模型不擅长推理并不是因为推理本身很难,而是互联网上没有太多展示推理过程的训练数据,Cohere、OpenAI 和 Anthropic 等公司一直在收集这类数据。在打造 Skywork o1 的过程中,研究团队也在数据上下了很大功夫。通过自研的多智能体体系,他们构造了高质量的分步思考、反思和验证数据,并通过多样的高质量长思考数据对基座模型进行继续预训练和监督微调。
为了提高这一阶段模型的训练效率和逻辑推理能力,他们还在版本迭代中大规模使用了自蒸馏和拒绝采样。
第二阶段是提高推理能力的强化学习。Skywork o1 的工作方式是分步推理,确保每个步骤的正确性对于最终结果的正确性非常重要。为此,研究团队研发了适配分步推理强化的 Skywork o1 Process Reward Model(PRM),而且在短期内实现了新版本迭代。
与主要侧重于数学和代码的上一个版本相比,新版 PRM 增加了对更多常见推理领域的支持,例如常识推理、逻辑陷阱、伦理决策等。此外,在模块化评估方面,Skywork-PRM 还侧重优化了对 o1 风格思维链的试错与反思验证能力的支持,细粒度地为强化学习与搜索提供了更准确的奖励信号。
实验证明,Skywork-PRM 可有效地捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响,结合自研分步推理强化算法进一步加强模型推理和思考能力。
第三阶段是推理规划。Skywork o1 团队基于天工自研的 Q * 线上推理算法,配合模型在线思考,寻找最佳推理路径。

Skywork o1 团队自研的 Q * 算法,这也是全球首次将 Q * 算法实现和公开。图源:论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》。论文链接:https://arxiv.org/pdf/2406.14283
前面提到,通过使用高质量和多样化的长思考数据,研究团队对基座模型进行了预训练和监督微调,从而使其具备了结构化输出回答的能力。这种能力体现在 Skywork o1 能够对推理过程进行统筹规划,并实现模型回答的自动化分层输出。在这一过程中,Skywork o1 还会穿插进行反思和验证,以确保推理的准确性。
考虑到这类模型的回答通常比传统模型更长,如果使用以句子为单位的规划方法,会显得效率低下,并且容易导致过度思考。因此,Skywork o1 采用了一种新的规划方式,即以模块作为规划的步骤单位。这种模块化的树形结构推理不仅提高了规划效率,还使得 Skywork o1 的 PRM 能够更完整地观察到模块化的回答,从而做出更准确的判断,并指导 LLM 进行更有效的推理。
为了避免模型在回答简单问题时过度思考。Skywork o1 还采用了自适应分配搜索资源的方式,在搜索开始之前对用户 query 进行难度预估,自适应地控制搜索树的宽度和深度,在简单的问题上做到快速给出回答的效果,在复杂题目上做到反复多轮验证从而提高回答的准确率。
Skywork 4o 加持的 Skyo 和真人有多像?
自从 OpenAI 发布 GPT-4o 以来,行业和用户对语音大模型的需求已经发生了变化:他们不单单追求自然、实时和准确的回复,还希望 AI 能够尽可能读懂对话中的情绪并给予相应的情感反馈,这就在情绪感知、情感共鸣方面提出了更高的要求。
实现以上这些在技术上面临着一些挑战,比如在数据层面,高质量、多样性和代表性的数据获取往往成本高昂,采集数据后还需要专业人员对包含各种噪声、口音、语速的语音数据进行标注。同时,更强的情绪感知和回应需要准确识别用户语音的音调、节奏、音量、语气等细微且复杂的变化,并在回答时根据情境调整语气和语调。总之,需要克服的问题不少。
Skyo 利用超过百万小时的语音数据进行了大模型预训练,学习到了真实世界各种场景、不同风格的说话表达方式,在回复时的语速、语调、情感方面不再干巴巴,变得更加自然、更加多变、更有人情味。
也得益于端到端建模(而非传统的 ASR + NLU + TTS 三阶段的级联方案),Skyo 能够像人类一样,能听懂用户的语音,并提供了高质量交互能力(包括极低延迟、实时打断)和自然、流畅的互动体验,用户也能快速获得智能的语音回应。

上图为 Skyo 所采用的语音对话框架,专为全双工端到端语音对话设计,方便用户通过自然的对话方式与智能系统交流。整个框架可以分为以下几步:
- 语音输入(Speech Query)与语音编码(Speech Encoder):用户通过语音表达自己的问题或请求,这些语音被系统接收,作为对话的起点。系统利用语音编码器将接收到的语音信号转换为语义表示。
- 适配转换(Adapter):语音的语义表示通过适配模块的模态对齐被调整为大语言模型(LLM)能够理解的格式,为语音与文本语义的无缝对接提供支持。
- 大语言模型(LLM):经过适配的语音信息被输入到核心智能模型(LLM),模型通过多模态的处理能力理解语音意图,并生成相应的解决方案或回答。
- 语音输出(Speech Token):系统支持直接输出语音 token(Speech Token),通过扩散模型将这些 token 还原为真实语音,实现从语音输入到语音输出的端到端交互。
,时长00:28
,时长00:23
从体验效果中我们能感觉到,Skyo基本能做到「像和真人一样说话聊天」的效果,两个影响体验的关键因素——响应速度和回复的自然流畅程度——都优化得非常好。由此可见,端到端建模的方式确实存在明显优势,它让 Skyo 不再仅仅是一个语音转录后进行理解问答的工具,而是成为了声音领域的智能专家。
2025 年,大模型竞争进入 Next Level
这段时间,关于 2025 年 AI 趋势的分析多了起来,大家不约而同地提到了一些关键词,比如推理时间计算、AI 智能体、空间智能、AI 应用…… 显然,大模型的竞争即将进入 Next Level。
IBM 发布的 2025 年 AI 趋势分析。
当然,并不是所有的企业都可以继续走下去。除了算力这种拦路虎,技术路线的环环相扣也是一个重要因素。比如要想做好 AI 智能体,模型的推理能力要足够强;要想做好空间智能和 AI 应用,多模态能力至关重要。毕竟,现实生活中的很多需求都是多模态而不是纯文字的,模型对真实物理世界的感知也要建立在强大的多模态理解能力之上。
在众多做大模型的国内公司中,昆仑万维是模型能力较为全面的一家。这些能力彼此增益,帮助昆仑万维实现了模型能力的快速迭代,也让他们在潜在应用的探索中拥有更高的自由度。
截至目前,昆仑万维已经在应用领域取得了不少成果,比如推出了最懂金融、学术的天工 AI 搜索,AI 音乐创作平台 Mureka,AI 短剧平台 SkyReels,AI 社交产品 Linky 等。对于这样的成绩,昆仑万维创始人周亚辉在朋友圈发文表示,「昆仑万维 24 年的 AI 战略我自己也打满分,原因是足够差异化,找到了自己小而大美的空间。」
更重要的是,这些已经取得的技术、产品成果让昆仑万维在实现其长期目标 —— 通用人工智能(AGI)的道路上,显得尤为坚定和有信心。
2024 年初,昆仑万维发布了新使命 —— 实现通用人工智能,让每个人更好地塑造和表达自我。
周亚辉认为,AGI 时代也可以叫做机器人时代。AGI 时代的标志是机器人开始真正进入人类社会,进入到人们工作和生活的方方面面的场景中。
不过,要想进入这个时代,需要解决空间智能大模型的构建、运动控制技术的改进、机器人的保值增值能源能耗这三大问题。目前,对推理大模型和多模态大模型的研究正逐步为这些技术难题提供解决方案。这些研究可能是通往 AGI 时代的必经之路。
未来一年,我们期待昆仑万维在 AI 领域的发展能够带给大家更多的惊喜。
.....
#奥特曼回应一切
宫斗、马斯克、ChatGPT两周年
2022 年 11 月 30 日,OpenAI 的网站访问量达到了一个从未有过的峰值。当时,这家初创公司虽然在业内赫赫有名,但远没摸到大厂门槛,以至于其所有者甚至没有费心去追踪他们的网络流量。不过今天看来,那是这个公司最后一个「平静」的日子。
仅仅两个月后,OpenAI 的网站访问量就超过了 1 亿,大家都在尝试使用 ChatGPT 并惊叹于其能力。自那以后,一切都变了,尤其是对于 OpenAI CEO 山姆・奥特曼(Sam Altman)来说。
但 2023 年 11 月发生了一件令人震惊的大事,奥特曼突遭 OpenAI 董事会解雇,一时间引爆网络。但后来的事大家都知道了,奥特曼重回 OpenAI 执掌大权至今。
近日,彭博社专访了奥特曼,采访中,奥特曼解释了他那颇受讨论的四天解雇事件,他实际上如何运营 OpenAI,以及他对 AGI(通用人工智能)的不懈追求。
以下是关于采访内容的编译和整理。
Q(主持人):现在是回顾过去两年、反思一些事件和决策、并澄清一些事情的好时机。但在我们开始之前,您能否再讲述一次 OpenAI 创始晚餐的故事?
A(奥特曼):每个人都想要一个简洁的故事,希望有一个决定性的时刻让一切发生。保守地说,那一年(2015 年)大概有 20 次创始晚餐,但最终只有一次被载入史册,成为大家谈论的焦点。对我个人来说,最重要的一次是我和 Ilya 在加州山景城的 The Counter 餐厅的那次晚餐。只有我们两个人。
Ilya Sutskever 是 OpenAI 联合创始人,也是人工智能领域的顶尖研究人员之一。作为董事会成员,他参与了 2023 年 11 月解雇我的行动,但几天后他公开表示对他的决定感到遗憾。他于 2024 年 5 月离开 OpenAI。
再往前追溯,我一直对 AI 非常感兴趣。我在本科时就学习过 AI。后来有一段时间我分心了,直到 2012 年,Ilya 和其他人完成了 AlexNet 。我一直在关注进展,心想:天哪,深度学习看来成了(Man, deep learning seems real.)。而且,它似乎具有扩展性。这真的是一件大事。应该有人做点什么。
AlexNet 由 Alex Krizhevsky、Sutskever 和 Geoffrey Hinton 共同创建,它利用了一种强大的新型计算机程序 —— 深度卷积神经网络(CNN),能够以前所未有的准确度识别图像,从而推动了人工智能领域的重大进展。
于是我开始接触很多人,询问谁适合一起做这件事。在 2014 年,AGI 是多么非主流的目标,这一点怎么强调都不为过。人们甚至害怕和我交谈,因为我说我想启动一个 AGI 项目。他们总是回答这是虚幻的概念,可能会毁掉你的职业生涯。但很多人都说,有一个人你一定要聊聊,那就是 Ilya。于是我在一次会议上「跟踪」了 Ilya,在走廊里拦住了他,我们聊了起来。我当时就觉得:这家伙很聪明。我大致告诉了他我的想法,我们一起吃了顿饭。在我们的第一次晚餐中,他阐述了 —— 虽然用词和现在不同 —— 但基本上阐述了我们如何构建 AGI 的策略。
Q:那次晚餐畅聊的精神,有哪些至今仍然存在于公司中?
A:几乎所有的精神都还在。当然,在此基础上我们还增加了一些东西,但我们当时对深度学习的信念,对实现这一目标的具体技术路径的信念,以及对研究和工程相结合的信念 —— 让我感到惊讶的是,这些想法竟然如此有效。通常,当你有了这些想法时,它们并不一定完全奏效,而我们最初的一些构想显然也有完全不奏效的地方。但(我们相信)AGI 是可能的,相信这是值得押注的方向,后来这些想法被证明是非常正确的。
Q:最初 OpenAI 团队的优势之一就是招募人才。你们成功地将大量顶尖的 AI 研究人才收入麾下,尽管提供的薪酬往往远低于竞争对手。你们的吸引力是什么?
A:我们的吸引力很简单:就是一起构建 AGI。而这一招奏效的原因在于当时要构建 AGI 是多么异端,因此,你过滤掉了世界上 99% 的人,只吸引到那些真正有才华、有原创思维的人。这非常强大。如果你在做和其他人一样的事情,比如构建第 10000 个照片分享应用?那真的很难招募到顶尖人才。但如果你能让我相信没有其他人正在做这件事,并且吸引一小部分真正有才华的人?你就能把他们全部收入麾下。而且他们都想一起工作。
所以,我们当时提出的听起来可能有些大胆甚至离谱的想法,赶走了领域内所有资深专家,却吸引到了一群年轻、有才华的「杂牌军」,他们从一开始就很出色。
Q:你们多快就确定了各自的角色?
A:大多数人都是全职投入的。我当时还有一份工作(2014 年,奥特曼成为 Y Combinator 的首席执行官) ,所以一开始我参与得很少,但随着时间的推移,我越来越热爱这个项目。到了 2018 年,我已经完全沉浸其中了。Ilya 和 Greg 负责管理,但每个人都在做自己的事情。
Q:看起来你对最初的那几年有一种浪漫的看法。
A:当然,那绝对是 OpenAI 历史上最有趣的时光。我的意思是,现在也很有趣,但能够亲身参与我认为将是有史以来最伟大的科学发现时期之一 —— 考虑到它对世界的影响 —— 这是一种千载难逢的经历。如果你非常幸运的话。如果你极其幸运的话。
Q:2019 年你接任了 CEO 一职。这是怎么发生的?
A:我当时试图同时兼顾 OpenAI 和 Y Combinator 的工作,这真的非常困难。但我完全被我们实际上要构建 AGI 的想法吸引住了。有趣的是,我记得当时我还在想,我们会在 2025 年实现这一目标,但这完全是一个随机的数字,基于我们从开始算起的 10 年。那时候他们常常开玩笑说,我唯一会做的事情就是走进会议室说:扩大规模!虽然这不完全正确,但那确实是那个时期的主要方向。
Q:ChatGPT 的正式发布日期是 2022 年 11 月 30 日。你现在感觉如何?
A:我明年就 40 岁了。在我 30 岁生日时,我写了一篇博客,标题是「日子很长,但几十年很短」。今天早上有人给我发邮件说:「这是我最喜欢的博客文章,我每年都会读。等你 40 岁时,你会写一篇更新吗?」我笑了,因为我肯定不会写更新。我根本没时间。但如果我写了,标题会是「日子很长,而几十年也很长。」所以,这段时间感觉确实非常漫长。
博客地址:https://blog.samaltman.com/the-days-are-long-but-the-decades-are-short
Q:当第一批用户开始涌现,并且很明显这将成为一个巨大的现象时,你是否有一个「天哪(holy)」的时刻?
A:这里有几点要说。首先,我当时觉得它会表现得相当不错!公司其他人都说:「你为什么让我们发布这个?这是个糟糕的决定,它还没准备好。」我通常不会做出很多「我们要做这件事」的决定,但这次是个例外。
在最初的几天里,ChatGPT 开始运行时,白天的使用量比晚上多。团队都在打趣地说:哈哈,它在下降。但我在 YC 期间学到了一点,那就是,如果每次新的低谷都高于之前的峰值,那就意味着有一些非常不同的事情正在发生。在前五天里,情况看起来就是这样,我当时就想:我觉得我们手上有一些我们还没有充分认识到的东西。
这引发了一场疯狂的争夺计算资源的行动 —— 我们当时并没有足够的资源 —— 因为我们发布这个产品时没有任何商业模式,甚至没有考虑过商业模式。我记得在 12 月的一次会议上,我说:我会考虑任何关于如何为此付费的想法,但我们不能再这样下去了。当时有一些非常糟糕的想法 —— 但没有一个好的。所以我们只是说:好吧,我们就试试订阅模式,以后再想办法。这个模式就这样坚持了下来。我们发布的是 GPT-3.5,但 GPT-4 即将推出,所以我们知道它会变得更好。当我开始与使用它的人谈论他们用它做什么时,我们不断快速改进它,最终导致了全球媒体的关注。
Q:你是一个享受成功的人吗?你能够沉浸其中,还是已经在担心下一阶段的扩展了?
A:关于我或我的职业生涯,有一个非常奇怪的现象:一般的轨迹是你经营一家大型成功的公司,然后在 50 多岁或 60 多岁时,你厌倦了那么辛苦的工作,然后成为一名风险投资家。先成为一名 VC,并且有一段相当长的 VC 职业生涯,然后再去经营一家公司,这是非常不寻常的。虽然我认为这在很多方面都不太好,但有一个方面对我非常有利,那就是你有一种奇怪的预知能力,知道会发生什么,因为你已经观察并指导过很多人经历过这些。我知道自己既充满了感激之情,同时也感到「F--- 我要被绑在一艘火箭上,我的生活将完全不同,而且不会那么有趣。」我对这件事有很多黑色幽默。我丈夫(Altman 于 2024 年初与长期伴侣、澳大利亚软件工程师 Oliver Mulherin 结婚。他们预计在 2025 年 3 月迎来一个孩子。)会讲一些有趣的故事,关于那段时间我回到家时,他会说:这太棒了!而我会说:这真的很糟糕。对你来说也很糟糕。你只是还没意识到,但这真的很糟糕。
Q:你长期以来在硅谷都很有名,但 GPT 的出现带来的一个后果是,你迅速成为了世界名人。这是否让你管理团队的能力变得复杂?
A:这让我的生活变得很复杂。但在公司里,无论你是否是一个知名的 CEO,他们只会问:我的 GPU 在哪里?
我一生中都感受到这种距离,这真的很奇怪。当我和老朋友、新朋友在一起时,我都会有这种感觉 —— 除了最亲近的人之外的任何人。我想如果我和平时不怎么交流的人在一起,我确实会在工作中感受到这种距离。如果我必须和一个我几乎从未见过面的群体一起参加会议,我就能感觉到这种距离的存在,但我大部分时间都和研究人员在一起。
Q:你还记得第一次隐约意识到,一家拥有数十亿美元外部投资、向非营利董事会汇报的营利性公司可能会成为一个问题的那一刻吗?
A:肯定有很多这样的时刻。但从 2022 年 11 月到 2023 年 11 月的这一年,简直是一片疯狂的模糊,我几乎记不清了。感觉就像我们在 12 个月内几乎从零开始建立了一整个公司,而且还是在公众关注下完成的。回顾过去,我学到的一点是,每个人都说他们不会搞混重要和紧急事务的相对优先级 ,但每个人都会被紧急事务所迷惑。所以,我会说,我第一次冷静地面对现实 —— 意识到这行不通 —— 是在那个周五下午的 12:05 左右。
Q:当董事会解雇你作为 CEO 的消息传出时,确实令人震惊。但你似乎是一个情商很高的人。在那之前,你是否察觉到任何紧张的迹象?
A:我认为我的情商并不高,但即使对我来说,这也超出了我能察觉到的紧张范围。你知道,我们一直在讨论安全性与能力、董事会的角色以及如何平衡这些事情。
在第一个周末发生了很多烦人的事情。我对那段时间的记忆 —— 可能细节有误 —— 他们在周五中午解雇了我。周五晚上有一群人辞职了。到了周五深夜,我想:我们就去开始一个新的 AGI 项目吧。周五深夜,一些高管团队的人说:我们觉得可能会扭转局面。冷静点,等等看。
周六早上,两位董事会成员打电话来,想谈谈我回来的事情。我一开始非常生气,拒绝了。然后我想:好吧,行吧。我真的很在乎 OpenAI。但我说:「除非整个董事会辞职」。我希望我当时采取了不同的策略,但当时觉得这是一个合理的要求。然后我们在董事会问题上争论了一段时间。我们试图协商一个新的董事会。他们有一些我认为荒谬的想法。我也有一些他们认为荒谬的想法。但我以为我们总体上达成了共识。然后 —— 在整个过程中我最生气的时候 —— 这件事持续了整个周日。从周六到周日,他们一直说:快完成了。我们只是在等待法律建议,但董事会同意书正在起草中。我一直在说:我在维持公司的团结。你们有所有的权力。你们确定你们在说实话吗?他们会说「是的,你会回来的。你会回来的。」
然后周日晚上他们突然宣布 Emmett Shear 是新任 CEO。我当时想:好吧,现在我真完了,因为那是真正的欺骗。周一早上,所有人都威胁要辞职,然后他们说:好吧,我们需要扭转局面。
董事会表示,他们进行了一项内部调查,结论是你与他们的沟通不够坦诚。这个说法很具体 —— 他们认为你在撒谎或隐瞒了一些信息 —— 但也很模糊,因为没有具体说明你在哪些方面不够坦诚。你现在知道他们指的是什么吗?
我听到了不同的版本。有一种说法是,Sam 甚至没有告诉董事会他要推出 ChatGPT。我对这件事有不同的记忆和解释。但事实是,我确实没有说:「我们要推出这个东西,它将会是一个巨大的事情。」我更清楚的一点是,我与一些董事会成员在某些问题上存在分歧,我认为这些问题是冲突或有问题的行为,而他们对我想让他们离开董事会的方式感到不满。这是我学到的一个教训。
Q:我可以提供一个理论吗?
A:当然
Q:你曾经意识到,OpenAI 的结构会扼杀公司,甚至可能扼杀公司的发展。因为一个以使命为导向的非营利组织永远无法竞争计算能力,也无法做出 OpenAI 蓬勃发展所必需的快速转变。董事会由原教旨主义者组成,他们把纯粹置于生存之上。所以你开始决定让 OpenAI 参与竞争,这需要有点狡猾,而董事会 ——
A:我不认为我做的事情是偷偷摸摸的。我想说的是,本着速战速决的精神,董事会并没有了解全貌。有人说:「Sam 拥有创业基金,但他没有告诉我们这件事。」之所以发生这种情况,是因为我们有这个复杂的结构:OpenAI 本身不能拥有它,拥有 OpenAI 股权的人也不能拥有它。而我恰好是不拥有 OpenAI 股权的人。所以我暂时是它的所有者或 GP,直到我们建立了一个转让它的结构。
我对董事会是否应该知道这件事有不同的看法。但是,在表面上有所作为的情况下,是否应该更加清晰地传达这样的事情?是的,我会接受这种反馈。但这不是偷偷摸摸的。今年很疯狂,对吧?这家公司正以多种不同的方式以每小时一百万英里的速度前进。我鼓励你与任何现任董事会成员交谈,询问他们是否觉得我曾经做过任何鬼鬼祟祟的事情,因为我坚决不会这样做。
General partner,即普通合伙人。根据 2024 年 3 月 29 日提交给美国证券交易委员会的文件,OpenAI 初创企业基金的新 GP 是 Ian Hathaway。该基金约有 1.75 亿美元可用于投资专注于 AI 的初创企业。
OpenAI 目前的董事会由这些人组成:
Bret Taylor(董事长):前 Salesforce 联席CEO,FriendFeed 联合创始人。
Adam D'Angelo:Quora 公司联合创始人兼CEO。
Lawrence Summers:比尔・克林顿时期的财政部长,哈佛大学前校长。
Sue Desmond-Hellmann:比尔 & 梅琳达・盖茨基金会前CEO。
Nicole Seligman:索尼前执行副总裁兼法律总顾问。
Fidji Simo:Instacart 首席执行官兼董事长。
Paul Nakasone:美国国家安全局前局长(2018-24)。
Zico Kolter:计算机科学家,专门研究机器学习和人工智能安全。
我认为上一届董事会对人工智能出错的信念和担忧程度是真实的。在那个周末,其中一位董事会成员对团队说了一件事,人们因此还取笑她,那就是摧毁公司可能符合非营利董事会的使命。在我看来,这就是信念的勇气。我认为她是真心的。虽然我完全不同意所有具体的结论和行动,但我尊重这样的信念,我认为旧董事会的行为是出于错误但真诚的信念,他们相信什么是正确的。也许还因为,AGI 就在不远处,而我们却没有对此负责。因此,我可以在完全不同意其他细节的同时,对这一点保持尊重。
据报道,前 OpenAI 董事会成员 Helen Toner 曾表示,在某些情况下,摧毁公司「实际上符合董事会的使命」。奥特曼此前曾与乔治城大学安全与新兴技术中心战略总监 Toner 对峙,就她撰写的一篇批评 OpenAI 过快发布 ChatGPT 的论文展开争论。她还称赞了 OpenAI 的竞争对手之一 Anthropic,称其没有等待发布聊天机器人而「煽动人工智能炒作的火焰」。
Q:显然你赢了。因为是你现在坐在这里。但你难道没有被这一切所伤吗?
A:我确实很担心。最困难的部分不是经历这个过程,因为四天的肾上腺素飙升可以让你做很多事情。看到公司和更广泛的社区对我的支持,我感到非常温暖。但很快,一切都结束了,我的手头一团糟。情况一天比一天糟糕。就像又有政府调查,又有旧董事会成员向媒体泄露假新闻。所有那些我觉得真正毁了我、毁了公司的人都走了,现在我不得不收拾他们的烂摊子。实际上,大概是每年的这个时候(12 月),下午 4 点 45 分天就黑了,又冷又多雨,晚上我一个人在家里走来走去,既郁闷又疲惫。感觉很不公平,因为房子着火了,我根本没有时间恢复。
Q:当你回到公司时,你是否会因为担心自己可能被视为的角色会而对重大决定或公告感到自卑?让我说得更简单些,你是否觉得有些人可能会认为你很坏,而你需要让他们相信你是好人?
A:比这更糟糕。当一切都澄清之后,一切都好了,但在最初的几天里,没有人知道任何事情。我走在大厅里,人们会把目光移开。就好像我被诊断出癌症晚期一样。人们对我表示同情和同情,但(没有人)知道该说些什么。那真的很艰难。但我当时想:「我们有一项复杂的工作要做。我要继续做下去。」
Q: 你能具体说说你是怎么管理公司的吗?你平时都在做什么?比如说,你会和工程师一对一交谈吗?你有时间到处走走看看吗?
A:让我看看我的日程表。我们每周一都有三小时的管理层会议。然后,嗯,就说昨天和今天吧,我和六个工程师进行了一对一会谈。这个会面之后我还要去参加研究会议。明天有几个重要的合作伙伴会议和很多计算资源相关的会议。光是关于扩充计算资源的会议就有五个。明天还有三个产品头脑风暴会议,之后还要和一个重要的硬件合作伙伴共进晚餐。差不多就是这样。有一些是每周固定的安排,其他的就是随机应变了。
Q:你花多少时间在内部和外部沟通上?
A:内部沟通要多得多。我不是那种喜欢给员工写表扬邮件的人,但是我经常进行一对一和小组会议,然后在 Slack 上处理很多事情。
Q:所以你真的会深入到具体细节中去?
A:我是 Slack 的重度用户。在细节中你能获得很多信息。我是说,虽然没有什么比和小型研究团队开会更能深入了解情况,但是通过 Slack,你也能了解到很多广泛的信息。
Q:你之前说过你对 ChatGPT 的界面和使用体验有很多想法。那你觉得什么时候需要自己亲自动手去做,而不是在旁边指导别人做呢?
A:在这个层面上?其实不太会。昨晚我和 Sora 团队一起吃饭时,我确实写了好几页详细的建议,但这种情况很少见。还有待会儿的会议,我会向研究团队提出一个非常具体的提案,详细说明我认为他们未来三个月该做什么,不过这也是比较特殊的情况。
Sora 是 OpenAI 的视频生成模型,于 2024 年 12 月 9 日向公众发布。
Q:我们之前聊到过,科研有时会和企业架构产生冲突。你们把研究部门安排在离公司其他部门几英里远的另一栋楼里。这样安排是不是有什么象征意义?
A:不是,这纯粹是出于后勤和空间规划的考虑。我们最终会有一个大园区把所有人都集中在一起。当然,研究部门还是会有自己独立的区域。保护核心研究对我们来说至关重要。
Q:那是在保护哪些方面呢?
A:硅谷公司通常是这样发展的:一开始是个产品公司,在这方面做得很好,然后规模越来越大。随着规模扩大,收入增长率自然会放缓。
到了某个时候,CEO 就会想要建立一个研究实验室,希望能产生新想法推动进一步增长。这种模式在历史上确实成功过几次,比如贝尔实验室和施乐 PARC。但大多数时候都不成功。通常的结果是:你有一个很棒的产品公司,却有一个很糟糕的研究实验室。
我们很幸运,我们「嫁接」上去的小产品部门可能是有史以来发展最快的科技公司,至少是近几年最快的。但这很容易吞噬掉研究的魔力,我绝不会让这种事情发生。
我们的使命是开发通用人工智能 (AGI)、超级智能以及之后的一切。在这个过程中,我们会遇到很多精彩的事物,任何一个都可能让我们分心,偏离最终目标。我认为保持专注非常重要。
Q:作为一家公司,你们已经不怎么公开谈论 AGI 了,谈论的主要是不同智能等级的 AI,但你私下和我交流,个人层面上还是在讨论 AGI 吗?
A:我觉得「AGI」已经变成一个很模糊的词了。如果你看看 OpenAI 划定的五个等级,你会发现有人把每个等级都称作 AGI。设立这些等级的目的是为了更具体地确定我们所处的位置和进展情况,而不是纠结于到底是不是 AGI。
Q:你们会用什么标准来判定「好,我们现在已经实现 AGI 了」?
A:我个人比较粗略的想法是:当 AI 系统能够完成重要岗位上的高技能人类的工作时,我会称之为 AGI。
当然这又引出了一系列问题:是完成全部工作还是部分工作?它能不能从一个计算机程序开始,自己决定要成为一名医生?它能达到该领域最顶尖人才的水平,还是只能达到前 98% 的水平?它有多大的自主性?
这些问题我还没有特别明确的答案,但如果你能雇用一个 AI 作为远程员工,它能负责一个优秀的软件工程师的工作,我想很多人会说:「好吧,这差不多算是 AGI 了。」
当然,我们总是在不断提高什么是 AGI 的标准,这就是为什么这个问题很难回答。但我还是坚持这个答案。至于是否达到了超级智能,对我而言关键在于:这个系统能否快速地提高地球上的科学发现速度?
Q:ChatGPT 现在有超过 3 亿用户。从他们的使用行为中,你们对 ChatGPT 有了什么新的认识?
A:听用户分享他们使用或放弃使用 ChatGPT 的各种场景,对我们的产品规划很有帮助。以前经常出现的一个情况是,很明显人们在尝试把 ChatGPT 当搜索引擎用,但这其实不是我们最初发布时考虑
的功能。而且它在这方面表现得很糟糕。
但这显然成了一个重要的需求方向。老实说,自从我们在 ChatGPT 中加入搜索功能后,我几乎不用 Google 了。在我们只有内部原型的时候,我完全没想到 ChatGPT 会取代我使用 Google 的需求。
从用户那里我们还学到:很多人在寻求医疗建议时都依赖 ChatGPT。OpenAI 的员工经常收到一些很暖心的邮件,比如:「我生病好几年了,医生都查不出原因。最后我把所有症状和检查结果输入 ChatGPT,它说我得了这个罕见病。我去看医生,他们给我开了药,我完全好了。」这是个极端个例,但类似的事情经常发生,这让我们意识到人们需要这个功能,我们应该继续完善它。
Q:你们的产品价格从 0 美元到 20 美元到 200 美元都有,据传还可能会推出 2000 美元的档位。你们是如何给这种前所未有的技术定价的?是根据市场调研还是凭直觉?
A:我们一开始免费推出了 ChatGPT,人们开始大量使用,我们需要某种方式来支付计算成本。我记得我们测试了两个价格,20 美元和 42 美元。人们觉得 42 美元有点贵,但愿意付 20 美元。所以我们选择了 20 美元。这大概是 2022 年 12 月底或 2023 年 1 月初的事,和专门雇人做的定价研究不太一样。
我们也在考虑其他定价方向。很多客户告诉我们他们想要基于使用量的定价。比如「有些月份我可能需要花 1000 美元的算力,有些月份我想少花一点。」
我年纪已经上来了,还记得拨号上网的时代,美国在线(AOL)每月给你 10 小时或 5 小时的上网时间包。我很讨厌那种模式,不想让人感觉在计时。但我们正在规划其他一些基于使用量但又合理的定价方式。
Q:你是部署安全委员会(Deployment Safety Board,DSB)、安全咨询小组(Safety Advisory Group,SAG)和安全与安保委员会(Safety and Security Committee,SSC)这三个组织的成员吗?你对可能出现的风险有哪些认识呢?
A:这是个好问题,SAG 会向我报告,但我实际上并没有正式加入。他们发送报告给我,然后我回复同意或不同意,之后再发给董事会。我也不在 SSC,但是 DSB 的成员。
至于风险,我认为短期、中期和长期风险仍然大致相同。我预计在网络安全和生物 方面有需要缓解的严重或潜在严重的短期问题。从长远看,当你考虑一个真正具有惊人能力的系统时,可能会存在难以准确想象和建模的风险。虽然我认为这些风险是真实存在的,但同时也相信解决这些风险的唯一方式是推出产品并学习。
2024 年 9 月,OpenAI 承认其最新的 AI 模型存在被滥用于制造生物武器的风险。2023 年 5 月,Altman 与数百名其他签署者一起发表声明,强调了 AI 带来的生存威胁。
Q:谈到近期未来,业界似乎已经聚焦在三个潜在的发展障碍上:模型扩展、芯片短缺和能源短缺。我知道这些问题是相互关联的,但您能按照关注程度对它们进行排序吗?
A:我们在每个领域都有一个让我感觉不错的计划。在扩大模型的规模方面,我们在技术和安全性上都在持续取得进展。
我认为 2025 年将是一个不可思议的年份。你知道 ARC-AGI 挑战赛吗?五年前,主办方设立了非常困难的基准,作为衡量 AGI 的「敲门砖」。
上周五,我们宣布 o3 通过了这个基准。这个基准已经放在那里五年了,都没有模型能解决。如果模型能在这个测试中得到 85% 的分数,就能被认为「通过」了。而 OpenAI 的系统,完全是开箱即用,无需任何附加定制,就获得了 87.5% 的成绩。我们还有更好的研究和模型即将推出。
OpenAI 于 12 月 20 日推出了 Model o3 模型。它将在 2025 年初向用户开放。据 The Information 报道,OpenAI 跳过 o2,直接推出 o3,是为了避免与英国电信运营商 O2 产生潜在冲突。
在我的笔记本电脑上,Altman 打开了 ARC-AGI 网站,上面显示了一系列令人困惑的抽象网格。抽象正是其要点所在;要「解决」这些网格并实现 AGI,AI 模型必须更多地依靠推理而不是训练数据。
根据 ARC-AGI 的测试结果:OpenAI 的新 o3 系统在两种配置下都取得了优异成绩。使用普通配置(计算成本 1 万美元)时得分 75.7%,使用高性能配置 (计算成本 172 万美元) 时得分 87.5%。这两个分数都创造了新的记录。
我们一直在努力完善整个(芯片)供应链,与所有合作伙伴密切合作。我们有人为我们建造数据中心和制造芯片。我们有自己的芯片项目。我们与英伟达建立了超棒的合作关系。明年,我们将更详细地讨论这个问题,但现在是我们扩大芯片规模的时候了。
2024 年 11 月,英伟达 CEO 在东京 Nvidia 峰会上
Q:那么能源.....
A:核聚变会成功的。
Q:核聚变会成功。大概在什么时间框架内?
A:很快。很快我们就能看到净能量输出的核聚变演示。当然,接下来还需要建立一个稳定可靠的系统,进行规模化生产,解决工厂建设问题 —— 不是一两座,而是要建设多座工厂。同时还需要获得相关监管部门的批准。整个过程可能需要几年时间。但我相信 Helion 很快就能向你证明,核聚变技术是完全可行的。
Helion 是由 Sam Altman、Dustin Moskovitz 和 Reid Hoffman 共同创立的清洁能源创业公司,专注于开发核聚变。
Q:在短期内,是否有办法在不违背气候目标的情况下维持 AI 的增长?
A:是的,但在我看来,没有一种方法比快速批准核聚变反应堆更好。我认为 Helion 特有的核聚变方法是如此出色,我们应该朝着这个方向全速前进,一劳永逸。
Q:我看到你在 DealBook 上的评论,你认为 Elon Musk 不会利用他的职位从事任何与 AI 相关的不当行为。
A:我确实这么认为。
Q:但在过去几年里,Elon Musk 买下了 Twitter,然后又起诉要退出 Twitter 的收购。他恢复了 Alex Jones 的账号。他向扎克伯格发起笼斗挑战。这只是不当行为冰山一角。所以你真的相信他会 ——
A:哦,我认为他会做各种糟糕的事情。我认为他会继续起诉 OpenAI,撤销诉讼,提起新的诉讼,诸如此类。他还没有向我发起笼斗挑战,但事实证明他对扎克伯格也不是那么认真。正如你指出的,他说了很多事情,开始做,又撤销,被起诉,起诉别人,与政府发生冲突,被政府调查。这就是 Elon being Elon。问题是,他会不会滥用他现在自称的共同总统的政治权力来干扰商业竞争对手?我不认为他会这样做。我真诚地不这么认为。也许最终会被证明,是我错了。
Q:在你们两个合作得最好的时候,你会如何描述你们各自带来的贡献?
A:我们之间有一种很好的互补关系。虽然当时我们对 AI 的发展方向和具体路径都不太清晰,但我们都坚信这项技术对人类未来至关重要。我们有共同的愿景和使命感,也都愿意在前进的过程中不断调整和优化方向。这种共识让我们能够很好地合作推进这项事业。
Q:我很好奇实际你和 Elon 在工作中实际关系如何?
A:我不记得在导致分道扬镳的矛盾之前与 Elon 有过任何大的争执。但在那之前,尽管有各种传言 —— 人们谈论他如何斥责人、发脾气之类的,我都没有经历过。
原文地址:https://www.bloomberg.com/features/2025-sam-altman-interview/
刚刚,奥特曼发长文「反思」:十年艰难创业路,如今已掌握AGI秘诀
刚刚,奥特曼发出博文,反思了创业十年自己的经历和感悟。他再次回顾了被董事会解雇的「噩梦般的」那天,庆幸自己扛了过来。如今幸运的是,他确信OpenAI已经掌握了通往AGI之路的秘诀。
就在刚刚,奥特曼发出了一篇长文博客,名为「反思」。
这篇博客发得很应景。就在前不久,奥特曼刚刚接受了彭博社的专访,曝出了不少猛料,包括对OpenAI前董事会的态度、与马斯克的恩怨,以及对川普时代AI走向的看法。
对于前董事会成员,他是这样描述的:「所有那些我认为严重损害了我个人和公司利益的人现在都离开了,而我却不得不来收拾他们留下的残局」。
而在今天的这篇「反思」中,奥特曼再次回顾了自己在OpenAI所经历的各种「冲突和误解」。
他将之前的风波,称之为「善意之人在治理上的一次重大失败」。
不过,好消息是——「OpenAI已经知道如何构建AGI了」。
「反思」全文
ChatGPT 的第二个生日仅仅过去一个多月,我们现在已经进入了能够具备复杂推理的模型的新范式。
新的一年,总会让人陷入沉思。在此,我想分享一些个人对于目前行业发展现状的思考,以及这段旅程给予我的启示。
随着我们越来越接近通用人工智能,现在似乎正是回顾OpenAI进展的重要时刻。诚然,未知与谜题仍旧重重,而且我们现在仍处于早期阶段。但比起刚开始时,我们已经懂得更多了。
将近九年前,我们怀着对AGI的憧憬创立了OpenAI。因为我们坚信这项技术可能成为人类历史上最具影响力的技术。
我们想要弄清楚如何构建它并使其带来广泛的益处;我们很兴奋能够尝试在历史上留下我们的印记。我们的野心极其远大,同时我们也坚信这项工作可能会以同样非凡的方式造福人类社会。
当时,很少有人关心这个,即使有人关注,也主要是因为他们认为我们不可能成功。
2022年,OpenAI还是一个默默耕耘的研究实验室,正在开发一个暂时称为「Chat With GPT-3.5」的项目。(我们在研究方面比起取名字要擅长得多。)
我们一直在观察人们使用我们API的playground功能,发现开发者们真的很享受与模型对话。
我们认为围绕这种体验建立一个演示会向人们展示未来的重要特征,并帮助我们使模型变得更好更安全。
最终,这个项目被命名为ChatGPT,并于2022年11月30日发布。
从理论上讲,我们一直都知道,在某个时刻我们会达到一个临界点,人工智能革命就会被引爆。
但我们不知道那个时刻会是什么。出乎我们意料的是,这就是那个时刻。
ChatGPT的问世带来了一个前所未有的增长曲线—在OpenAI、整个行业以及整个世界范围内都是如此。
我们终于看到了,我们一直希望从人工智能中获得的一些巨大好处,而且我们可以预见不久的将来会有更多突破性的进展
从0开始,很曲折,很糟心
这一路走来并不轻松。道路并不平坦,也没有什么明显正确的选择。
在过去的两年里,我们不得不几乎从零开始,围绕这项新技术打造一个完整的公司。
要培养人才,唯有在实践中学习,而且当面对一个全新的技术领域时,没有人能够准确告诉你应该怎么做。
在几乎没有现成经验可循的情况下,以如此高的速度发展公司,是一个艰难曲折的过程。
我们常常是向前迈两步,又不得不退回一步(有时甚至是前进一步,却要退回两步)。
虽然错误可以在过程中得到纠正,但对于这种开创性工作,确实找不到任何可以参考的手册或指南。
在未知的领域高速前进是一次令人难以置信的经历,但对所有参与者来说也带来了巨大的压力。冲突和误解接踵而至。
这些年对我来说,是最有收获、最快乐、最精彩、最有趣、最疲惫、压力最大的几年,而尤其是最近这两年,对我来说是压力最大、最不轻松的。
但最终萦绕我心头的是感激之情;我知道有朝一日,当我退休后在牧场里百无聊赖地看着植物生长时,一定会回想起:能够实现自己的童年梦想,是多么珍贵的一件事。
每当遇到那种在周五下午1点前就已经发生七件糟心事的日子,我就试图提醒自己记住这一点。
那一天,就像噩梦般萦绕
一年多前的某个周五,最糟糕的事情发生了:我在一次视频通话中,突然被解雇。
通话结束后,董事会立即发布了一篇关于此事的博文。
当时我正在拉斯维加斯的一间酒店房间里。那种感觉就像一场噩梦,不真实感几乎难以用言语形容。
在毫无预警的情况下,我就在公众面前被解雇了,随之而来的是几个小时的混乱,和持续数天的动荡。
最让人困惑的是那种「迷雾重重」的状态——没有人能够得到一个满意答案,关于事件的始末和原因。
在我看来,这整个事件反映出一次重大的管理失误,包括我在内的所有参与者虽然都是行的善意之举,却未能妥善处理。
回首往事,我确实希望自己当时能做出一些不同的事,而我也相信,经过这一年后,我已经成为一个更成熟、更懂得深思熟虑的领导者。
这件事让我深刻认识到,拥有多元化视角和丰富管理经验的董事会,在应对复杂挑战时有多么重要。
要实现良好的公司治理,需要建立充分的信任和信誉。
我由衷感激许多人共同努力,为OpenAI构建了一个更强大的治理体系,使我们能够继续追求「让AGI造福全人类」的使命。
我最大的感悟是心存感激,感恩之情难以言表。
感谢每一位OpenAI的同事,是他们选择投入时间和精力来追逐这个梦想;感谢在危机时刻伸出援手的朋友们;感谢那些始终支持我们、信任我们能够助力他们成功的合作伙伴和客户;更要感谢在我生命中用行动表达关爱的人们。
我们以更加团结和积极的姿态重新投入工作,我为我们此后展现的专注精神深感自豪。
我们完成了一些堪称最出色的研究成果。我们的周活跃用户数从约1亿增长到超过3亿。
最重要的是,我们持续向世界推出真正受用户喜爱、能够切实解决实际问题的技术。
很快,首批AI智能体上岗
九年前,我们完全不知道自己最终会成为什么样子;即使到现在,我们也仍在探索之中。
AI的发展经历了许多曲折,我们预计未来还会有更多变数。
有些转折令人欣喜,有些则充满挑战。看着研究突破不断涌现是一件令人振奋的事,许多曾经的质疑者也转而成为坚定的支持者。
我们也目睹了一些同事离开并成为竞争对手。随着规模扩大,团队人员变动在所难免,而OpenAI的发展速度更是惊人。
我认为这种情况某种程度上无法避免——初创公司在每个重要的规模增长阶段通常都会经历大量人员变动,而在 OpenAI,各项指标每隔几个月就呈几何级数增长。
过去两年的发展,堪比普通公司十年的历程。
当任何公司以如此快的速度成长和演变时,利益分歧自然会出现。
而当一家公司在重要行业中居于领先地位时,就会因各种原因遭受诸多攻击,尤其是来自竞争对手的挑战。
我们的愿景始终如一,但策略将持续演进。比如,创立之初,我们完全没想到要建立一个产品导向的公司,只以为专注于卓越研究就够了。我们也没预料到会需要如此庞大的资金投入。
如今我们必须着手建设一些几年前都未曾设想的新事物,而未来还会出现许多我们现在难以想象的创新。
我们为目前在研究和技术部署方面取得的成就感到自豪,并将继续推进在安全性和利益共享方面的思考。
我们始终认为,打造安全的AI系统的最佳方式是通过迭代和渐进式地将其推向世界,让社会有时间适应并与技术共同演进,从实践中汲取经验,不断提升技术的安全性。
我们坚信要在安全性和对齐研究领域保持全球领先地位,并以实际应用的反馈来指导研究方向。
我们确信,现在我们已掌握了如何构建传统意义上的AGI。我们相信,到2025年,我们可能会看到第一批AI智能体「正式就业」,从根本上改变企业的生产效能。
我们依然坚信,通过迭代方式将卓越的工具交到人们手中,终将带来广泛而积极的社会影响。
我们开始将目标转向更宏大的方向,即真正意义上的超级智能(Superintelligence)。
我们热爱现有的产品,但我们的终极使命是开创那个辉煌的未来。
有了超级智能,一切皆有可能。超级智能工具能够大幅加速科学发现和创新进程,远超人类现有能力,从而极大地提升社会财富和人类福祉。
现在谈论这些或许听起来像天方夜谭,甚至有些不切实际。但这没关系——我们早已习惯这种质疑,也不介意继续面对这种情况。
我们深信,在未来几年里,所有人都会看到我们所看到的景象,也会认识到在追求最大化普惠价值的同时,保持审慎态度是多么重要。
考虑到我们研究的重大意义,OpenAI注定不会是一家普通的公司。
能够参与这项工作,既是莫大的荣幸,也让我们倍感谦卑。
致谢
在之前的动荡中,有很多人为帮助OpenAI和我个人付出了难以想象的努力,但其中有两个人尤其重要。
Ron Conway和Brian Chesky的付出远远超出了职责所在,甚至难以用言语形容。
多年来,我一直就听闻Ron有着出色的能力和坚韧的性格,这几年我也一直与Brian保持密切交流,从他那里获得了无数宝贵的帮助和建议。
但只有在危机时刻并肩奋战,才能真正见证一个人的实力。我可以说,如果没有他们的帮助,OpenAI很可能就会土崩瓦解;他们夜以继日地工作,直到问题得到解决。
尽管工作强度惊人,但他们始终保持冷静,在整个过程中都展现出清晰的战略眼光和真知灼见。
他们不仅避免了我犯下几个重大错误,自己也从未失误。他们调动庞大的人际资源处理各项事务,游刃有余地应对各种复杂局面。我相信他们还在暗中做了许多我所不知道的事情。
然而,最令我感动的是他们所展现的关怀、同理心和支持。
我原以为自己懂得什么是支持一个创始人和一家公司,从某种意义上说确实如此。但我从未见过,甚至从未听说过像他们这样鼎力相助的故事。现在,我才真正明白为什么他们会享有如此传奇的地位。
虽然他们各有不同,并且都当之无愧地拥有自己独特的声誉,但他们却有着相似之处:那就是能够以超凡的能力为他人排忧解难,并且在别人最需要的时候始终不渝地给予支持。
科技行业因为有他们的存在而熠熠生辉。
当然,像他们这样的人,还有很多。这是我们行业弥足珍贵的特质,它对整个行业的发展起着比人们想象更大的推动作用。我期待有朝一日能够以同样的方式回报他人。
说到私人层面,我要特别感谢Ollie在那个周末和一直以来给予的支持;他在各个方面都堪称完美,甚至可以说,没有比他更好的伙伴了。
参考资料:
https://x.com/sama/status/1876081442775793984
.....
#英伟达RTX5090规格曝光
自带32GB GDDR7内存
功耗高达 575W。
RTX 5090 到底长什么样?即将亮相的英伟达新一代显卡最近又曝光了更多信息。
上周末,外媒 VideoCardz 获得了一张非公版 RTX 5090 的包装盒照片,实锤了新一代旗舰显卡将使用 32GB GDDR7 显存。
虽然即将发布的 Inno3D RTX 5090 iChill X3 的包装没有透露有关英伟达旗舰下一代 GPU 的更多规格,但确实展示出了一些信息,比如它肯定会继续挑战人们的机箱容量,厚度达到了 3.5 Slot。在 32 G DDR7 内存的基础上,它具有 512 位的内存总线,可提供高达 1792 GB/s 的内存带宽。
过去几周,有关英伟达新一代显卡的传言越来越多。根据目前的信息汇总,RTX 5090 的显存(VRAM)预计将是 RTX 5080 的两倍,而且是 GDDR7,相对 RTX 4090 的 24GB GDDR6X 将是巨大的升级。事实上,它的 8GB 升级可能是系列独有的,有传言称 RTX 5060 会坚持使用 8GB。
此外,RTX 5090 可能会拥有 21760 个 CUDA 核心、近 1.8TB/s 的内存带宽和 575W 的 TDP—— 这一数字比 RTX 4090 又多了 125W。看来在芯片工艺制程提升有限的情况下,每代 GPU 只有通过增加功耗才能继续保持性能的提升。
至于价格,有人表示 RTX 5090 的价格会在 2000-2500 美元左右,这比 RTX 4090 1600 美元的发布价要高出不少。
好在这些信息是否准确很快就会有答案了。英伟达 CEO 黄仁勋将于 1 月 7 日上午在消费电子展 CES 上发表重要主题演讲,人们普遍预计英伟达将在会上发布其新一代消费级 GPU 系列,包括 RTX 5090、RTX 5080、RTX 5070 Ti、RTX 5070 等,或许还有一款面向国内的 RTX 5090D 型号。
上周也有消息表示,今年首先能买到的将是 RTX 5080,可能最早的上市日期会在 1 月 21 日。

看起来,RTX 5080 拥有 16GB GDDR7 内存,预计将成为第一款使用 PCIe 5.0 接口标准的消费级显卡。RTX 5080 将使用英伟达全新一代 GB203-400 Blackwell GPU,预计将拥有 10752 个 CUDA 核心。
参考内容:
https://videocardz.com/newz/exclusive-first-look-at-geforce-rtx-5090-with-32gb-gddr7-memory
.....
#SparseViT
IML领域首个稀疏化视觉Transformer
SparseViT 的主要科研成员来自四川大学吕建成团队,合作方为澳门大学潘治文教授团队。
- 论文:《Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer》
- 论文链接:https://arxiv.org/abs/2412.14598
- GitHub:https://github.com/scu-zjz/SparseViT
随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影可分为语义和非语义特征。因此目前几乎所有的图像篡改检测模型(IML)都遵循「语义分割主干网络」与「精心制作的手工制作非语义特征提取」相结合的设计,这种方法严重限制了模型在未知场景的伪影提取能力。
研究内容
利用非语义信息往往在局部和全局之间保持一致性,同时相较于语义信息在图像不同区域表现出更大的独立性,SparseViT 提出了以稀疏自注意力为核心的架构,取代传统 Vision Transformer (ViT) 的全局自注意力机制,通过稀疏计算模式,使得模型自适应提取图像篡改检测中的非语义特征。
研究团队在统一的评估协议下复现并对比多个现有的最先进方法,系统验证了 SparseViT 的优越性。同时,框架采用模块化设计,用户可以灵活定制或扩展模型的核心模块,并通过可学习的多尺度监督机制增强模型对多种场景的泛化能力。
此外,SparseViT 极大地降低了计算量(最高减少 80% 的 FLOPs),实现了参数效率与性能的兼顾,展现了其在多基准数据集上的卓越表现。SparseViT 有望为图像篡改检测领域的理论与应用研究提供新视角,为后续研究奠定基础。
SparseViT 总体架构的设计概览图如下所示:

图 1:SparseViT 总体架构。
主要的组件包含:
1. 负责高效特征捕获的 Sparse Self-Attention
Sparse Self-Attention 是 SparseViT 框架的核心组件,专注于在减少计算复杂度的同时高效捕获篡改图像中的关键特征即非语义特征。传统的自注意力机制由于 patch 进行 token-to-token 的注意力计算,导致模型对语义信息过度拟合,使得非语义信息在受到篡改后表现出的局部不一致性被忽视。
为此,Sparse Self-Attention 提出了基于稀疏编码的自注意力机制,如图 2 所示,通过对输入特征图施加稀疏性约束,设输入的特征图

, 我们不是对

的整个特征上应用注意力,而是将特征分成形状为

的张量块,表示将特征图分解为

个大小为

的不重叠的张量块,分别在这些张量块上进行自注意力计算。

图 2:稀疏自注意力。
这一机制通过对特征图进行区域划分,使模型在训练中专注于非语义特征的提取,提升了对图像篡改伪影的捕捉能力。相比传统自注意力,Sparse Self-Attention 减少了约 80% 的 FLOPs,同时保留了高效的特征捕获能力,特别是在复杂场景中表现卓越。模块化的实现方式还允许用户根据需求对稀疏策略进行调整,从而满足不同任务的需求。
2. 负责多尺度特征融合的 Learnable Feature Fusion (LFF)
Learnable Feature Fusion (LFF) 是 SparseViT 中的重要模块,旨在通过多尺度特征融合机制提高模型的泛化能力和对复杂场景的适应性。不同于传统的固定规则特征融合方法,LFF 模块通过引入可学习参数,动态调整不同尺度特征的重要性,从而增强了模型对图像篡改伪影的敏感度。
LFF 通过从稀疏自注意力模块输出的多尺度特征中学习特定的融合权重,优先强化与篡改相关的低频特征,同时保留语义信息较强的高频特征。模块设计充分考虑了 IML 任务的多样化需求,既能针对微弱的非语义伪影进行细粒度处理,又能适应大尺度的全局特征提取。LFF 的引入显著提升了 SparseViT 在跨场景、多样化数据集上的性能,同时减少了无关特征对模型的干扰,为进一步优化 IML 模型性能提供了灵活的解决方案。
研究总结
简而言之,SparseViT 具有以下四个贡献:
1. 我们揭示了篡改图像的语义特征需要连续的局部交互来构建全局语义,而非语义特征由于其局部独立性,可以通过稀疏编码实现全局交互。
2. 基于语义和非语义特征的不同行为,我们提出使用稀疏自注意机制自适应地从图像中提取非语义特征。
3. 为了解决传统多尺度融合方法的不可学习性,我们引入了一种可学习的多尺度监督机制。
4. 我们提出的 SparseViT 在不依赖手工特征提取器的情况下保持了参数效率,并在四个公共数据集上实现了最先进的(SoTA)性能和出色的模型泛化能力。
SparseViT 通过利用语义特征和非语义特征之间的差异性,使模型能够自适应地提取在图像篡改定位中更为关键的非语义特征,为篡改区域的精准定位提供了全新的研究思路。相关代码和操作文档、使用教程已完全开源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。该代码有着完善的更新计划,仓库将被长期维护,欢迎全球研究者使用和提出改进意见。
.....
#RTX5090震撼发布
国行16499元起,黄仁勋「美国队长」pose亮翻全场
「GeForce 开启了 AI 的大门,现在 AI 回到了 GeForce 的怀抱,带来了新的革命。」
老黄穿上了新皮衣,拿来了新 GPU。
今天上午,全世界的目光都集中在了拉斯维加斯。

北京时间 1 月 7 日上午 10 点半,英伟达 CEO 黄仁勋在拉斯维加斯 CES 2025 展会上发表了主题演讲(keynote),涉及到的话题包括 GPU、AI、游戏、机器人等等。
演讲开篇,黄仁勋回顾了英伟达 GPU 的发展史。从 2D 到 3D,CUDA 的诞生到 RTX。而到了人工智能时代,GPU 又推动了 AI 从感知进化到生成,接下来将会是智能体,未来还很快将要有进入物理世界的人工智能。
机器学习改变了每个应用程序的构建方式以及计算的方式。现在,完全面向 AI 计算的硬件会是什么样子?英伟达为我们进行了一番展示。
RTX 50 系列全线发布,最高 3352 TOPS
英伟达的 Blackwell 架构 AI 计算卡问世已久,人们一直在期待新架构的消费级 GPU,今天英伟达直接来了个一次性发布。
CES 现场,黄仁勋手持 RTX5090 显卡,雄赳赳气昂昂地登上了演讲台。

性能参数上,Blackwell GPU 的 RTX 5090 拥有 920 亿晶体管、3352 AI TOPS(每秒执行万亿次运算次数)、380 RT TFLOPS(每秒执行万亿次浮点运算次数)以及 125 Shader TFLOPS(着色单元)。

RTX5090(及 5090D)拥有 32 GB GDDR7 显存,显存位宽 512 位,CUDA 核心数量是 21760,功耗 575W。更详细的指标如下图所示:

RTX 5090 是迄今为止最快的 GeForce RTX GPU,在 Blackwell 架构创新和 DLSS 4 的加持下,RTX 5090 的性能比 RTX 4090 高出了 2 倍。
还有更多的新技术:新一代超分辨率 DLSS 4 将性能提升了 8 倍。英伟达首次推出了多帧生成功能,通过使用 AI 为每个渲染帧生成多达三帧来提高帧速率。DLSS 4 与 DLSS 技术套件协同工作,从而将性能提高到了传统渲染的 8 倍,同时通过 NVIDIA Reflex 技术保持响应速度。
DLSS 4 还引入了图形行业首个 Transformer 模型架构的实时应用。基于 Transformer 的 DLSS 光线重建和超分辨率模型使用 2 倍以上的参数和 4 倍以上的算力,以在游戏场景中提供更高的稳定性、更好的重影、更高的细节和增强的抗锯齿效果。在发布当天,DLSS 4 将在超过 75 款游戏和应用程序中支持 RTX 50 系列 GPU。
同时,NVIDIA Reflex 2 引入了 Frame Warp 创新技术,在将渲染帧发送到显示器之前根据最新的输入更新渲染帧来减少游戏延迟。Reflex 2 最多可将延迟降低 75%,这让游戏玩家在多人游戏中占据竞争优势,并使单人游戏的响应速度更快。
另外,Blackwell 还将 AI 引入了着色器。25 年前,NVIDIA 推出了 GeForce 3 和可编程着色器,为长达 20 年的图形创新奠定了基础,包括像素着色、计算着色和实时光线追踪。此次 NVIDIA 还推出了 RTX 神经着色器,将小规模 AI 网络引入了可编程着色器,在实时游戏中解锁电影级材质、灯光等。
渲染游戏角色是实时图形中最具挑战性的任务之一,RTX Neural Faces 将简单的光栅化人脸和 3D 姿势数据作为输入,并使用生成式 AI 实时渲染时间稳定、高质量的数字人脸。
RTX Neural Faces 与用于光线追踪头发和皮肤的全新 RTX 技术相得益彰,并与全新 RTX Mega Geometry 一起,可以在场景中实现多达 100 倍的光线追踪三角形,从而有望为游戏角色和环境带来巨大的真实感飞跃。
英伟达中文官网也展示了 RTX 50 系列的参数情况。

在揭晓价格时,老黄玩了一个花招:还记得 RTX4090 的价格吧?现在你买 RTX5070,549 美元(国行售价 4599 元)就可以买到 4090 的性能。

不过看起来在 RTX5090 上,这一代还是涨价了(RTX4090 是 1599 美元),达到了 1999 美元。国行的 RTX 5090D 价格也已出来了,16499 元起,RTX 5080 是 8299 元起。


在移动端,RTX50 系列的性能提升也是非常可观的,黄仁勋特意拿出来一台 RTX 5070 的笔记本。今年移动版显卡的上市速度也会很快。

更多移动版型号的价格(整机)可见下图:

不过黄仁勋并没有仔细介绍各型号的基础性能,还要等到时的真机测试。预计最早在 3 月份,就会有搭载 RTX50 系列显卡的设备上市。
在继续演讲之前,黄仁勋先摆了个 pose:「全世界的互联网流量都能通过这些芯片进行处理。」

他手里拿着的一大块晶圆上面有 72 个 Blackwell GPU,AI 浮点性能达到 1.4 ExaFLOPS,这就是 Grace Blackwell NVLink72。

与上一代产品相比,Blackwell 的每瓦性能提高了 4 倍。
新 Scaling Laws,首个基础世界模型 Cosmos
我们知道,大模型遵循扩展定律(Scaling Laws),最近 AI 领域正在热烈地讨论的是规模是否走到头了。
在英伟达看来,Scaling Laws 仍在继续,所有新 RTX 显卡都在遵循三个新的扩展维度:预训练、后训练和测试时间(推理),提供了更佳的实时视觉效果。

英伟达宣布推出基于 Llama 的一系列模型,包括 Llama Nemotron Nano、Super 和 Ultra。它们涵盖从 PC 和边缘设备到大型数据中心等所有领域。
英伟达还发布了运行在 RTX AI PC 上的基础模型,可支持数字人、内容创造、生产力和开发等任务。
这些模型都以 NIM 微服务的形式提供。基于 NIM 微服务构建的英伟达 AI Blueprints 可提供易于使用的预先配置好的参考工作流程。

AI 的下一个前沿是物理 AI,现在已经出现xx智能、空间智能等新概念。在 CES 上,英伟达发布了世界模型 Cosmos 平台,其中包含 SOTA 的生成式基础世界模型、高级的 tokenizer、护栏以及高速视频处理流程。Cosmos 的目标是推动自动驾驶汽车 (AV) 和机器人等物理 AI 系统的发展。

英伟达表示,物理 AI 模型的开发成本很高,需要大量现实世界的数据和测试。Cosmos 世界基础模型(WFM)可为开发者提供一种生成大量照片级真实、基于物理的合成数据的简便方法,以训练和评估他们现有的模型。开发者还可以通过微调 Cosmos WFM 来构建定制模型。
Cosmos 模型已经公开发布,下面是相关地址:
- 英伟达 API 目录:https://build.nvidia.com/explore/simulation
- Hugging Face:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
英伟达表示已经有许多领先的机器人和汽车公司成为 Cosmos 的首批用户,包括 1X、Agile Robots、Agility、Uber 等等。

黄仁勋表示:「机器人技术的 ChatGPT 时刻即将到来。与大型语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车开发至关重要,但并非所有开发者都具备训练自己的世界模型的专业知识和资源。我们创建 Cosmos 是为了让物理 AI 普及化,让每个开发者都能用上通用机器人技术。」
演讲中,黄仁勋还展示了一些使用 Cosmos 模型的方式,包括视频搜索和理解、基于物理学的照片级真实感的合成数据生成、物理 AI 模型开发与评估、使用 Cosmos 和 Omniverse 来生成可能的未来。
先进的世界模型开发工具
构建物理 AI 模型需要数 PB 的视频数据和数万小时的计算时间来处理、整理和标记这些数据。为了帮助节省数据整理、训练和模型定制方面的巨额成本,Cosmos 提供了以下功能:
- NVIDIA AI 和 CUDA 加速数据处理 pipeline,由 NVIDIA NeMo Curator 提供支持,使开发人员能够使用 NVIDIA Blackwell 平台在 14 天内处理、整理和标记 2000 万小时的视频,而使用 CPU-only 的 pipeline 则需要三年多的时间。
- NVIDIA Cosmos Tokenizer 是一种最先进的视觉 tokenizer,用于将图像和视频转换为 token。与当今领先的 tokenizer 相比,它的总压缩率提高了 8 倍,处理速度提高了 12 倍。
目前,整个物理 AI 行业的先驱都在使用 Cosmos,比如 AI 和人形机器人公司 1X 使用 Cosmos Tokenizer 推出了 1X 世界模型挑战赛数据集,另一家以自动驾驶汽车为起点为世界提供生成式 AI 的先驱 Waabi 在自动驾驶软件开发和仿真的数据管理环境中评估 Cosmos。
AI 超级计算机 Project DIGITS
英伟达还将之前的 AI 超级计算机 DGX-1 升级成了 Project DIGITS。整体来说:体型更小,性能更强。英伟达对其的描述是:「一款向全球的 AI 研究者、数据科学家和学生提供的个人 AI 超级计算机,让他们可以获得 NVIDIA Grace Blackwell 平台的力量。」

Project DIGITS 采用全新的英伟达 GB10 Grace Blackwell 超级芯片,可提供 PFLOPS 级 AI 计算性能,可用于原型设计、微调和运行大型 AI 模型。使用 Project DIGITS,用户可以使用自己的桌面系统开发和运行模型推理,然后在加速云或数据中心基础设施上无缝部署模型。

GB10 超级芯片可提供 PFLOPS 级且高能效的 AI 性能
GB10 超级芯片(Superchip)是基于 Grace Blackwell 架构的 SoC,可在 FP4 精度下提供高达 1 PFLOPS 的 AI 性能。
GB10 配备 Blackwell GPU,其中采用了最新一代 CUDA 核心和第五代 Tensor Cores,在通过 NVLink-C2C 芯片间互连连接到高性能 Grace CPU,其中包括 20 个采用 Arm 架构构建的高能效核心。英伟达表示,联发科也参与了 GB10 的设计。
GB10 超级芯片使 Project DIGITS 能够仅使用标准电源插座,就能提供强大的性能。每个 Project DIGITS 都具有 128GB 内存和高达 4TB 的 NVMe 存储。借助这款超级计算机,开发者可以运行多达 2000 亿参数的大型语言模型,从而加速 AI 创新。此外,借助 NVIDIA ConnectX 网络,还可将两台 Project DIGITS AI 超级计算机连接起来,运行多达 4050 亿参数的模型。
让 AI 超级计算触手可及
借助 Grace Blackwell 架构,企业和研究人员可以在运行 Linux 版 NVIDIA DGX OS 的本地 Project DIGITS 系统上对模型进行原型设计、微调和测试,然后将其无缝部署到 NVIDIA DGX Cloud、加速云实例或数据中心基础架构上。
这允许开发人员在 Project DIGITS 上对 AI 进行原型设计,然后使用相同的 Grace Blackwell 架构和 NVIDIA AI Enterprise 软件平台在云或数据中心基础架构上进行扩展。
另外,Project DIGITS 用户可以访问广泛的 NVIDIA AI 软件库进行实验和原型设计,包括有 NVIDIA NGC 目录和 NVIDIA 开发者门户中提供的软件开发套件、编排工具、框架和模型。开发人员可以使用 NVIDIA NeMo 框架微调模型,使用 NVIDIA RAPIDS 库加速数据科学,并运行 PyTorch、Python 和 Jupyter Notebooks 等常见框架。
英伟达表示其以及顶级合作伙伴将在 5 月推出 Project DIGITS,起售价为 3000 美元。
以上就是黄仁勋今天发布的重点,你怎么看?
参考链接:
.....
#OpenAI给不了的,DeepMind给
Sora联合负责人跳槽后开组新团队
入职三个月,委以重任。
在 Sora 发布即翻车之前,其团队掌舵人 Tim Brooks 在社交媒体上宣布跳车,跳槽的去向还是竞争对手谷歌 DeepMind。
这一消息立即引发轩然大波。据 The Information 爆料,Tim Brooks 的出走是因为 Sora 技术存在严重问题:不仅生成速度慢,还在各项性能上都难以与 Luma、Stability、Runway 等对手抗衡,更别提最近风头正劲的 Pika 和国产视频生成模型们了。
在 Sora 还在闭门造车的这段时间,竞争对手们已经在市场上攻城略地,打得火热。
当时,有业内人士预测,Tim Brooks 加入谷歌后很可能会在其视频生成模型 Veo 项目上大显身手。
不过,Sora 之所以惊艳不仅是视频生成的效果,更在于它能模拟真实世界的物理规律。世界模型的风正在 AI 圈刮起:谷歌的 GameNGen 能不用游戏引擎就直接生成游戏,最近大火的 Oasis 更是能用视频模型直接做出能玩的游戏。视频生成技术正在向模拟游戏世界的方向狂飙。
而 Tim Brooks 入职谷歌 DeepMind 后的新任务,就是这个方向。早在 DeepMind 联合创始人 Demis Hassabis 致的欢迎词中就剧透过这一点,他们要将「久未实现的创造世界模拟器的梦想变成现实」。

本周一,Tim Brooks 在 X 上宣布:「DeepMind 有雄心勃勃的计划,要打造能够模拟世界的大规模生成模型。我正在为这个使命组建一个新团队。」

根据这个帖子中所附链接的招聘信息,这个新团队将与谷歌的 Gemini、Veo 和 Genie 团队合作,并在他们的工作基础上,解决「关键性的新问题」,并将模型扩展到「最高计算水平」。

Gemini 是谷歌的旗舰人工智能模型系列,可用于分析图像和生成文本等任务。Veo 则是谷歌自己的视频生成模型,最新的 Veo 2 版本已经能一步生成美妆博主开箱视频或 Vlog,其逼真程度足够以假乱真。

Google Veo 2 生成的 Vlog 视频,图源:https://x.com/jerrod_lew/status/1872673797939044487
至于 Genie,它是谷歌对世界模型的尝试 —— 一种可以实时模拟游戏和 3D 环境的人工智能。就在上个月,谷歌震撼宣布了他们的新一代世界模型 Genie 2,实现了输入一张图直接升维出一个交互可玩的 3D 世界。

Genie 2 生成的可交互的虚拟世界
「我们相信,在视频和多模态数据上扩展人工智能训练是通往通用人工智能的关键路径,」一则职位描述中写道,「世界模型将推动众多领域的发展,例如视觉推理和模拟、xx智能体的规划,以及实时互动娱乐。」

Tim Brooks 团队的招人要求
从以上 JD 来看,Tim Brooks 新团队将致力于在其构建的模型之上开发「实时互动生成」工具,并研究如何将其模型与现有的多模态模型(比如 Gemini)进行整合。
主要招聘的有两个岗位:研究科学家和研究工程师,年薪在 136,000 美元—245,000 美元区间。

评论区的反响也很热烈,简历可能已经投上了。

世界模型是许多初创公司和大型科技公司追逐的焦点,比如李飞飞的 World Labs、初创公司 Decart 和 Odyssey。他们认为,世界模型有一天可以用来创建能与观众实时互动的媒体,比如只属于你的独家游戏剧情。同时,世界模型也能更好地模拟世界,解决机器人训练环境缺数据的问题。

但是原本靠创意吃饭的朋友们对世界模型的看法,可能就没这么乐观了。
最近,《Wired》杂志的一项调查发现,像动视暴雪这样的游戏工作室,已经裁减了大量员工,正在使用人工智能来偷工减料、提高生产力,并弥补人员流失。2024 年,由代表好莱坞动画师和漫画家的动画师公会委托的一项研究估计,到 2026 年,美国的电影、电视和动画行业将有超过 10 万个职位受到人工智能的冲击。
不过,像 Odyssey 这样的 AI 创业公司已经表态:他们的目标是与创意人士合作,而不是取代他们。至于谷歌能否用世界模型开创一个 AI 与人类创意共生的新时代,让我们拭目以待。
参考链接:
https://x.com/_tim_brooks/status/1876327325916447140
.....
#CES 2025
AMD锐龙9000新品亮相,游戏、创作力表现超Intel旗舰
已经领先的 AMD,还在扩大优势。
1 月 6 日,AMD 在拉斯维加斯举行的 CES 2025 上进行了重要发布,展示了旗下最新一代高端 CPU 和 GPU。
昨晚的发布覆盖 AMD 的所有消费级产品线,包括用于 AI PC 的全新 Ryzen AI Max、Ryzen AI 300 和 Ryzen AI 200 CPU,以及用于游戏台式机和笔记本电脑以及手持游戏系统的高性能芯片。
其中,16 核 32 线程的 Ryzen 9 9950X3D 格外吸引眼球。它采用最新一代 Zen 5 架构,搭配 AMD 主导的游戏加速 X3D 技术,提供了 128MB 的 L3 缓存。AMD 表示,这款芯片在游戏性能方面可以轻松超越英特尔 Arrow Lake 旗舰产品(Core Ultra 9 285K)多达 20%;与 Ryzen 9 7950X3D 相比,它在内容创作方面也提供了更大的性能提升 —— 速度提高了 13%。不过,这是以 TDP 增加 50W 为代价的。
AMD 还将推出一款新的 Ryzen 9 9900X3D,它配备 12 核和 24 线程,搭配 128MB 的 L3 缓存。

最高端 CPU 获得 X3D 加持
与上代 7950X3D 和 7900X3D 一样,9950X3D 和 9900X3D 都使用了两个计算芯片,其中一个采用了 3D 堆叠 V-Cache 小芯片(chiplet),从而将缓存容量提升到了 128MB,但导致了时钟频率下降。另一个标准芯片可以达到更高的时钟频率,从而在单线程和多线程任务中提供了更强的性能。下表为各型号处理器的规格和售价。

AMD 现有的 Ryzen 7 9800X3D 是无可争议的最佳游戏 CPU,但在零售店几乎买不到。此次 AMD Zen 5 架构驱动的 X3D 型号处理器将进一步扩大吸引力,也更容易买得到。据了解,9950X3D 和 9900X3D 将于 2025 年 3 月上市,但定价尚未公布。
接下来将详细介绍这两款处理器的游戏和创作力的基准表现。
超频后游戏性能比英特尔旗舰强 20%
在游戏方面,9950X3D 和 9900X3D 在芯片设计中采用了 3D 堆叠 SRAM,因而提高了游戏性能。不过这项 3D V-Cache 技术并不会平等地对所有游戏实现加速,因此要注意权衡。
AMD 的测试结果显示,在 40 款游戏中,9950X3D 以 20%的优势击败了英特尔旗舰 Arrow Lake Core Ultra 9 285K。不过,AMD 在 9950X3D 中使用了超频的 DDR5-6000 内存,而 285K 使用了普通的 DDR5-6400,这成为了优势来源。
另外,9950X3D 的游戏性能与游戏王者 9800X3D 相差无几(仅相差 1%),与上一代 7950X3D 相比提高了 8%。


不过,AMD 没有提供 9900X3D 的基准测试结果,只有等到上市后才能知道完整的性能结果。同时,虽然 AMD 提供了 40 款游戏的整体基准测试,但目前只给出了其中 13 款游戏的结果,其他游戏的表现尚未可知。
无论如何,这又一次对英特尔处理器造成了打击。在发布时,英特尔 Core Ultra 200SArrow Lake 在游戏性能方面并没有给用户留下深刻印象。
生产力和创作力表现同步提升
此外,需要注意的是,AMD 在采用 3D V-Cache 堆叠设计后提高了游戏性能,但最终导致了标准生产力工作的性能低于标准 Ryzen 9000 系列的非 X3D 处理器。但是,X3D 型号的处理器由于配备了更多内核,因而可以在更吃性能(heavier)的用例中提供更高的性能。

之前的 3D V-Cache 型号,尤其是 Ryzen 7 5800X3D 在游戏之外的表现很差,只能作为游戏处理器使用。9950X3D 和 9900X3D 应该会是出色的全能型处理器,因为它们具有更高的频率,可以同时提供出色的内容性能和当前所有处理器中最快的游戏性能。
再次,AMD 声称以 10% 的领先优势轻松击败了英特尔的旗舰 285K,尽管胜利主要集中在多线程应用程序上,并且一些异常值可以大大提高了平均排名(7zip、Photoshop)。在更广泛的应用程序中,这可能是一场更加激烈的竞争。AMD 还表示,它从 20 个基准测试中得出了整体指标,但只分享了其中 9 个的结果,并没有列出使用的其他应用程序。
另外,9950X3D 在创作者应用中比上代 7950X3D 快了 13%,是个不错的代际进步。


同样,9900X3D 的基准测试仍然没有放出。这并不奇怪,毕竟上代 7900X3D 的表现就没有那么厉害。
Radeon RX 9000 系列显卡问世
4nm 工艺,支持 FSR 4
今天 AMD 在 CES 上还公布了其下一代 Radeon RX 9000 系列显卡,其基于最新的 RDNA 4 架构,包括支持 AI 的 FSR 4(FidelityFX Super Resolution 4)升级技术。
Radeon RX 9070 XT 和 Radeon RX 9070 都将在第一季度由多家显卡制造商推出,但 AMD 尚未详细说明规格、价格或确切的上市日期。

来源:https://www.theverge.com/2025/1/6/24336246/amd-radeon-rx-9070-series-rdna-4-fsr-4-ces-2025
AMD 表示,基于 RDNA 4 的 GPU 显著提升了 AI 性能。AMD 优化了 RDNA 4 中的计算单元,改进了光线追踪引擎和性能,并提升了媒体编码质量。具体来讲,RX 9070 XT 和 RX 9070 显卡基于 4nm 工艺打造,将配备 AMD 的第二代 AI 加速器、第三代光线追踪加速器以及第二代 Radiance 显示引擎。

RDNA 4 架构还支持 FSR 4,FSR 4 是基于机器学习的升级技术,是对 AMD 产品的升级和帧生成技术的更新,专为 RDNA 4 及其专用的 AI 加速器硬件开发。

在今天早些时候的 AMD CES 主题演讲中,微软 Xbox 游戏工作室负责人 Matt Booty 登台确认,FSR 4 将在今年晚些时候推出的《使命召唤:黑色行动 6》(Call of Duty: Black Ops 6)中提供支持,进一步提升玩家的视觉体验和性能表现。
不过,AMD 尚未展示 FSR 4 与英伟达的 DLSS 技术相比如何,或者我们应该期待下一代 FSR 带来哪些类型的性能提升或图像质量改进。
目前还不清楚 RX 9070 系列 GPU 究竟会在竞争中提供什么样的性能,但在 RDNA 4 的品牌宣传幻灯片中,AMD 似乎暗示 9070 系列将提供与 Nvidia GeForce RTX 4070 Ti 和 RTX 4070 Super 类似的性能。我们知道现在英伟达的显卡价格已经提升到了较高的水平,AMD 的新显卡或许会利用性价比优势占据不小的市场。

在 CES 上,AMD 预计会展示新一代 GPU 的样品,不过今天的「发布」还不算正式发布。RDNA 4 的正式发布日期在 2025 年的一季度,在昨晚展示的两款显卡之外,其他的型号会更晚发布。
参考内容:
https://www.youtube.com/watch?v=WJoaV5NnPtw
https://www.theverge.com/2025/1/6/24336246/amd-radeon-rx-9070-series-rdna-4-fsr-4-ces-2025
.....
更多推荐


所有评论(0)