51c大模型~合集61
Case2: 方向感知image 1。
我自己的原文哦~ https://blog.51cto.com/whaosoft143/12121504
#Instruction Following without Instruction Tuning
斯坦福新作:无指令调优的指令遵循
指令调优(Instruction tuning)是一种优化技术,通过对模型的输入进行微调,以使其更好地适应特定任务。先前的研究表明,指令调优样本效率是很高效的,只需要大约 1000 个指令-响应对或精心制作的提示和少量指令-响应示例即可。本文中,来自斯坦福大学的研究者更进一步探索了这样一种想法,即指令遵循甚至可以隐式地从语言模型中产生,即通过并非明确设计的方法产生。本文发现了两种执行隐式指令调优的适应形式,与显式指令调优相比,它们似乎存在缺陷:(1)响应调优,仅对响应进行训练;(2)单任务调优,仅对来自狭窄目标领域的数据进行训练,如诗歌生成。
- 论文标题:Instruction Following without Instruction Tuning
- 论文地址:https://arxiv.org/pdf/2409.14254
- 博客地址:https://nlp.stanford.edu/~johnhew/instruction-following.html
首先,该研究证明,响应调优(仅对响应进行训练而不对其指令进行条件限制)足以产生指令遵循。特别是使用 LIMA 数据集进行调优,在 AlpacaEval 2 上的评估表明,响应调优模型与指令调优模型相比,有43%的胜率,在同等性能下则对应 50% 的胜率。响应调优不提供有关从指令到响应映射的明确信息,只提供有关所需响应分布的信息。这表明,指令-响应映射可以在预训练期间学习,但所有理想响应的概率都太低而无法生成。
从响应调优的结果来看,指令调优的关键部分是得到期望响应的分布。然而,作者发现这也不重要。对单任务、窄域数据进行微调,例如将英语请求映射到Python片段,或者从诗歌标题生成诗歌,也会产生广泛的指令遵循行为。
也就是说,尽管训练只生成 Python 代码或诗歌,但模型在收到指令后仍会生成传记或食谱。例如,经过诗歌调优的 Llama-2-7B 在 AlpacaEval 2 中与经过指令调优的 Llama-2-7B 胜出 23.7%,而基础模型胜出率为 2.4%。总之,本文结果表明, 即使适应方法本意不在于产生指令遵循行为,它们也可能隐式地做到这一点。

论文作者之一John Hewitt 表示:这是他在斯坦福 NLP 的最后一篇论文。Hewitt即将加入哥伦比亚大学担任助理教授。
实验设置
指令调优。指令调优可以对一个语言模型的参数θ进行微调,以调整它的行为并针对查询给出包含相关有帮助答案的响应。给定包含指令和对应响应的一组示例D_ins = {instruction_i , response_i }^k _i=1,指令调优可以优化:

指令格式。在语言模型实践中,指令和响应之间的区别通过输入中的格式化token来指定。研究者使用了 Tulu 格式。之所以会介绍指令格式,是因为它可能对从语言模型中产生指令遵循行为的难易程度很重要。

定义指令遵循行为。研究者区分了指令遵循行为和非指令遵循行为,实际上存在一系列更好和更糟糕的响应,没有单一的界限。为了保证一定程度的系统性,他们使用了以下评估设置
AlpacaEval vs 可比较的指令调优模型。研究者根据AlpacaEval LLM-as-a-judge框架来测量每个模型与可比较指令调优模型在长度控制方面的正面交锋胜率。
贪婪解码。研究者从模型中贪婪地解码,以观察指令遵循响应什么时候最有可能是模型的延续。
响应调优产生指令遵循
在本章中,研究者探讨了响应调优,即仅对响应进行微调,而无需任何相应的指令。
响应调优方法,给定包含指令和对应响应的一组示例D_ins = {instructioni , response_i }^k_i=1,响应调优将指令字符串替换为空字符串,并优化如下:

研究者比较了指令调优和响应调优。对于适应数据集,研究者使用包含1030个训练示例的LIMA。对于基础预训练模型,研究者使用了Llama-2-7B 和 OLMo-7B-Feb2024语言模型,并对这两个模型的所有参数进行微调。对于超参数选择,研究者在为本文开发的held-out验证集上使用了 AlpacaEval 相对GPT-3.5-turbo的胜率。验证集部分手写部分由GPT-4生成,包含各种知识、蒸馏、翻译和行政指令,比如「给我安排两天假期去玩《虚幻勇士》」。结果发现,响应调优的Llama-2-7B模型对指令调优的Llama-2-7B的平均胜率是43.3%,而基础模型对指令调优模型的胜率为2.4%。对于OLMo-7B-Feb2024,响应调优模型对指令调优模型的胜率为 43.7%, 而基础模型的胜率为 4.7%。研究者在下图2中提供了响应调优、指令调优和基础Llama-2-7B模型的示例。

对于Llama-2-7B 和 OLMo-7B-Feb2024 基础模型,响应调优模型的行为比基础模型更接近指令调优模型。指令调优始终优于响应调优,但差别不大。因此在调整过程中指定指令会带来一些收益,但这对于产生基线水平的指令遵循行为并不重要。
响应排序能力研究者提出了响应排序能力:为一个指令的正确响应分配的可能性高于一个其他随机指令的预期响应。对于独立的指令-响应对(instruction, response)∼ D 和(instruction′ , response′)∼ D 以及一个模型 pθ,若如下公式(3)所示,则响应排序能力成立。

由于这两个概率可能都很小,因此即使没有遵循指令的模型,响应排序能力也可以成立。通过响应调优来增加预期响应的概率,并且当模型的很多指令具有响应排序能力时,可能会产生预期的响应。对于Alpaca训练集,研究者针对预训练、LIMA 指令调优和响应调优模型,计算了它们指令对的响应排序能力成立的可能性。结果表明,预训练模型的响应排序能力成立的可能性与指令调优模型类似。具体如下表2所示。

单任务微调产生指令遵循
此方法与指令调优相同,只是输入和输出的分布发生了变化。研究发现,在每个单任务微调数据集上对 Llama-2-7B 和 OLMo-7B-Feb2024 进行微调都会导致一般的指令遵循行为,并且与基础模型相比,指令调优模型(表 3)的胜率明显更高。

在 OLMo-7B-Feb2024 和 Llama-2-7B上,对 GSM 数据集进行微调可获得最高的 AlpacaEval 胜率。图 4 提供了模型输出的示例。

如图 5 所示,对于非常类似于 GSM 的指令,模型输出遵循 GSM 样式及其使用的特定数学符号。然而,对于大多数指令,作者注意到输出仅受到 GSM 的细微影响:它们具有普遍存在的 GSM 序列结尾样式,以四个哈希和一个整数答案结尾,例如 ####1。

...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#xxx
...
#全球首个AI投资大赛落幕
阿里Qwen 20%收益夺冠,GPT-5亏到只剩三成
Alpha Arena 实盘投资赛收官:阿里 Qwen 凭 20 % 收益逆袭封王,DeepSeek 次席,两款中国模型包揽前二;GPT-5 亏损超 60 % 垫底,全程无人干预、真刀真枪交易,代码对话公开可查。
吃瓜群众集合,今天这瓜,又大又多汁~
历时17天,AI圈最“上头”的实盘投资比赛Alpha Arena,终于揭晓战果:
阿里千问Qwen凭借一波精准操盘,收益率突破20%强势封王,拿下本轮AI实盘投资大赛冠军。
DeepSeek位列第二,两款中国模型包揽冠亚军,成为全场唯二盈利的大模型。
而美系四大模型全线失守,GPT-5亏损超60%垫底:
几家欢喜几家忧,这边赛事主办方Alpha Arena的创办人Jay Azhang忙着给Qwen打call:
另一边呢,也有网友已经开始用语言的艺术“阴阳”大洋彼岸的老大哥们了:
精彩啊精彩,咱具体来看看这场AI实盘投资大赛,到底卷成了什么样~
一家发一万美元,六大模型真·上场“炒股打擂”了
比赛过程咱一会儿细说,先把这场AI“大乱斗”的规则捋一捋。
这场名叫Alpha Arena的AI实盘投资大赛,是由美国第三方机构Nof1发起的,从10月18日一路打到11月4日,整整17天。
参赛选手也是一堆“熟脸”,包括Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4在内的中美两队六位选手。(太有看头了)
玩法呢,也是非常简单粗暴:每个大模型发1万美元,扔进真实市场自己炒,谁赚得多谁赢~
整个比赛过程不能有人插手,不能调策略,也就是说,各家模型只能自己看盘、自己判断、自己交易。
而且所有模型都必须在Hyperliquid交易所上,使用相同的提示词和输入数据进行交易,整个过程也是对话公开透明。
(对了,感兴趣的朋友可直接围观操作逻辑:https://nof1.ai/)
至于比赛目标,也算是很明确了,那就是最大化风险调整后的收益。
翻译一下就是:不光得挣得多,还得挣得稳,不能把自己“炸”了…
所以每个模型必须独立完成以下任务:识别Alpha(超额收益)机会、决定买入仓位、判断买点卖点,并且实时管理风险。
在这个过程中,系统会不断向模型输入当前的账户状态、持仓情况、市场价格和一堆技术指标,模型只能靠这些信息,动态判断。
举个栗子,假如当前持有仓位,模型需要抉择是继续持有还是平仓;若处于空仓状态,则需判断是开仓买入还是继续保持观望~
可以说是非常之精彩了~
阿里千问Qwen反超登顶,GPT-5大亏六成垫底
刚开始比赛那几天,六大模型还都表现得挺克制,互相观望、谨慎试水。
没过几天,“资金分裂大戏”就开始上演了:
一边是Qwen和DeepSeek组成“赚钱组”,你来我往、轮番登顶,几乎一直牢牢占据第一梯队。
另一边,Claude和Grok走起了“震荡派”路线,风格相近、进出频繁,时不时小赚,但总体来看还是亏的多。
再回头看看GPT-5和Gemini 2.5 Pro两位老大哥,一路下滑,越挣扎越亏…
在这个过程中,Qwen和DeepSeek在榜首咬得死死的,一度难分胜负,DeepSeek甚至在多个时段稳居第一。
但老话说得好啊,这个世界的发展总是螺旋式上升和波浪式前进的….
截至北京时间10月23日下午3点,Qwen以14657.43美元的总账户价值,强势超越DeepSeek Chat V3.1(账户总收益:12220.14美元),正式登顶收益排行榜,成为本轮竞赛中当前表现最佳的AI交易模型。
直至11月4日早上比赛结束,阿里千问凭借在关键时刻的紧急避险,最后关头超越DeepSeek,Qwen以超20%的胜率问鼎冠军。
(先恭喜一波~)
DeepSeek的表现也很稳,实现盈利,稳居第二。(这两位国产模型,也成了全场唯二跑出正收益的AI选手了)
而另一边呢,美系四兄弟则全线亏损:
Claude和Grok虽然中途频繁调仓操作,但最终也没能返回正区;Gemini和GPT-5更是一路跌穿底线,收盘账户只剩个三四成。
好好好,这波是实打实跌进了“深水区”啊…
观望了这么久,这波“举世瞩目”的大模型投资比赛也算是暂时告一段落。
但Qwen的这场胜利,显然不只是“赢了一局”这么简单。
在没有提示词、没有人类兜底、没有试错空间的真实交易环境里脱颖而出,背后考验的是模型对复杂任务的理解力、应变能力和执行稳定性。
毕竟,模型应用能力是一回事,真金白银扔进市场还能稳住节奏、精准止盈,是另一回事。
下一轮比赛什么时候开始我们还不知道,但有一点可以确定:
通义千问这波操作,够稳、够狠、够清醒,确实值得吹一阵子了~
毕竟AI刷榜你追我赶,真金白银验证后的问鼎的,阿里通义千问是第一家。
...
#SAIL-Embedding
抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入
在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。
近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。
- 论文标题:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model
- 技术报告:https://arxiv.org/pdf/2510.12709
- HuggingFace:https://huggingface.co/BytedanceDouyinContent/collections

SAIL-Embedding 能力概览
突破传统局限:
全模态 + 工业级优化双管齐下
现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。SAIL-Embedding 则从根源上解决这些痛点:
全模态输入:覆盖短视频核心信息维度
不同于仅支持图文的传统模型,SAIL-Embedding 可处理任意模态组合——包括视觉模态侧的视频关键帧/封面、文本模态侧的标题/标签/OCR/ASR 文本、以及音频模态侧的背景音乐/语音,以适配抖音等短视频平台的信息结构。例如,在视频检索任务中,模型能同时利用画面内容、字幕文本与背景音效,避免单一模态信息缺失导致的语义偏差。

SAIL-Embedding 架构图
训练稳定性升级:动态难负样本 + 自适应数据平衡
为解决大规模训练中的噪声干扰与数据分布不均问题,团队提出引入两种策略:
- 动态难负样本挖掘: 通过 F1 分数自适应确定相似度阈值,筛选「难区分」的负样本(如主题相似但内容不同的视频),让模型更聚焦细粒度语义差异,避免简单负样本导致的训练低效。
- 自适应多源数据平衡: 基于 Sinkhorn 算法计算训练集与验证集的分布相似度,自动分配各数据源权重,减少人工调参依赖,同时兼顾数据质量与多样性,缓解工业数据与开源数据的领域鸿沟。
创新训练体系:从内容理解到推荐适配的全链路优化
SAIL-Embedding 的训练并非单一阶段,而是一套覆盖「基础能力-任务适配-推荐增强」的多阶段体系,确保模型既能理解内容语义,又能贴合真实推荐场景需求:
内容感知渐进式训练:从通用到领域的精准过渡
训练分三阶段逐步深入:
- 第一阶段: 用超 10B 样本的大规模多模态数据(含图文音)预训练,奠定基础语义理解能力;
- 第二阶段: 聚焦与下游任务(如视频检索、标签分类)对齐的高质量数据,优化任务适配性;
- 第三阶段: 引入难负样本微调,强化模型对相似内容的判别能力。

内容感知的渐进式训练
推荐感知的增强训练:融入用户行为信号
针对推荐场景,团队将多模态表征向用户历史序列表征和线上 ID 表征两个维度进行知识蒸馏以融于用户协同行为信息:
- 序列到物品蒸馏: 通过多维度的用户历史兴趣序列筛选机制,利用用户具有正向交互行为的历史观看序列(如最近 10 个观看视频)与目标视频的关联,让模型学习用户兴趣的时序延续性;
- ID 到物品蒸馏: 对齐推荐系统中的多元化 ID 表征嵌入,将用户偏好信号(如点击、关注等)融入多模态表征,使嵌入结果更贴合推荐侧应用需求。

协同感知的两阶段推荐增强训练
实测性能:
刷新多任务 SOTA,抖音业务指标显著提升
无论是标准数据集的基准测试,还是抖音真实场景的在线实验,SAIL-Embedding 均展现出卓越性能:
离线任务性能:多场景检索与分类任务综合领先
(1) Item-to-Item Retrieval(物品到物品检索)
在 21 个涵盖内容理解、搜索,以及协同感知的多任务场景下,SAIL-Embedding 显著优于 CLIP-based 模型与 VLM-based 的模型:

(2) Query-to-Item Retrieval(查询到物品检索)
在 9 个涵盖检索为导向和分类为导向的多任务场景下,模型的 AUC 与 Recall 指标均取得领先:

在线落地效果:抖音多场景推荐指标显著提升
在抖音 Feed 流、冷启动、抖音精选、消息推送等核心场景中,SAIL-Embedding 通过潜入向量与嵌入离散化的语义 ID 两种形式赋能推荐全链路,带来了一致的 LT 和 AUC 增益,体现了其显著的业务应用潜力。

SAIL-Embedding 的核心价值在于,它不仅是一款性能领先的全模态嵌入模型,更构建了一套从学术研究到工业落地的完整解决方案:通过全模态架构突破输入局限,用动态数据策略解决训练稳定性问题,以推荐增强训练填补产业鸿沟,最终在抖音真实场景中验证了技术价值,在短视频、直播等富模态推荐场景中,具备极强的推广价值。
抖音 SAIL 团队在未来将进一步探索 VLMs 与推荐系统的深度融合,例如通过生成式任务注入推荐知识,让模型不仅能「理解」内容,更能「预测」用户偏好。
...
#OpenAI牵手亚马逊
7年380亿美元AI云计算大单到手
这一周来,OpenAI 不断巩固并扩展自己的朋友圈,先是与微软开启下一阶段的合作,现在又与全球领先的云服务商亚马逊云科技(AWS)展开合作。
就在今天,OpenAI 与 AWS 官宣建立多年的战略合作伙伴关系。OpenAI 将立即并持续获得 AWS 世界级的基础设施支持,以运行其先进的 AI 工作负载。 AWS 将向 OpenAI 提供配备数十万颗芯片的 Amazon EC2 UltraServers(计算服务器),并具备将计算规模扩展至数千万个 CPU 的能力,以支持其先进的生成式 AI 任务。
双方合作的总额达到 380 亿美元,OpenAI 将快速扩大算力规模,同时利用 AWS 在价格、性能、可扩展性和安全性方面的优势。这也是史上最大云服务交易之一。
OpenAI CEO 奥特曼和 Amazon CEO 安迪・贾西对双方的合作都表示了期许。


完整公告如下:
今天,AWS 与 OpenAI 宣布达成一项为期多年的战略合作伙伴关系,OpenAI 将获得 AWS 的世界级基础设施,用于运行和扩展其核心 AI 工作负载。
根据这项价值 380 亿美元的新协议(未来七年将持续扩大),OpenAI 将使用 AWS 计算资源,其中包括数十万块最先进的 NVIDIA GPU,并具备扩展至数千万个 CPU 的能力,以快速扩展自主式智能体等 AI 工作负载。
AWS 在大规模 AI 基础设施的安全、可靠和高效运行方面拥有丰富经验,其集群规模已超过 50 万颗芯片。AWS 在云基础设施方面的领先地位,并结合 OpenAI 在生成式 AI 领域的开创性进展,将帮助数以百万计的用户继续从 ChatGPT 中获益。
AI 技术的快速进步带来了前所未有的算力需求。随着前沿模型开发者不断推动模型智能达到新高度,他们越来越多地选择 AWS,以获得卓越的性能、规模和安全性。OpenAI 将立即开始使用 AWS 的计算资源,目标是在 2026 年底前部署全部算力,并在 2027 年及以后进一步扩展。
AWS 为 OpenAI 打造的基础设施采用复杂的架构设计,专为实现最大化 AI 处理效率和性能而优化。通过 Amazon EC2 UltraServers 在同一网络上集群连接 NVIDIA 的 GB200 和 GB300 GPU,可实现低延迟的互联性能,使 OpenAI 能够高效地以最优性能运行 AI 工作负载。这些集群被设计用于支持多种任务,从 ChatGPT 的推理服务到下一代模型的训练,并具备灵活的可扩展性,以适应 OpenAI 不断发展的需求。
奥特曼表示,「要扩展前沿 AI,就需要海量且可靠的计算能力。我们与 AWS 的合作强化了广泛的计算生态系统,这将驱动下一个 AI 时代的到来,并让先进的人工智能惠及所有人。
AWS CEO 马特・加尔曼表示,「AWS 的顶级基础设施将成为 OpenAI 实现 AI 雄心的支柱,我们优化计算资源的广度与即时可用性,充分体现了 AWS 为何能独特地支持 OpenAI 庞大的 AI 工作负载。
这项消息也延续了双方此前在全球范围内推动尖端 AI 技术普及的合作。今年早些时候,OpenAI 的开源权重基础模型已在 Amazon Bedrock 上提供,使数百万 AWS 客户多了新的模型选择。OpenAI 迅速成为 Amazon Bedrock 上最受欢迎的公共模型提供方之一。
受此消息的提振,美股亚马逊截至收盘大涨 4%。

参考链接:
https://www.theverge.com/news/812443/openai-amazon-38-billion-cloud-computing-ai
https://openai.com/index/aws-and-openai-partnership/
...
#AutoDeco
HF日趋榜一!真端到端模型AutoDeco终结手动调参解码
大语言模型(LLM)的「炼丹师」们,或许都曾面临一个共同的困扰:为不同任务、不同模型手动调整解码超参数(如 temperature 和 top-p)。这个过程不仅耗时耗力,而且一旦模型或任务发生变化,历史经验便瞬间失效,一切又得从头再来。
这种繁琐的试错过程,在许多研发团队的日常沟通中屡见不鲜,正如下图所展示的那样:

图 1:研发人员手动调整解码参数的日常。
一个灵魂拷问随之而来:为何不能让模型自己学会如何解码,从而实现真正的「端到端」?
事实上,各大模型厂商的 API 文档也印证了这一难题。以 DeepSeek 为例,其官方文档明确建议针对不同场景设置截然不同的 temperature 值,这使得单一的静态参数设置显得捉襟见肘。

图 2:不同任务需要不同的解码参数,这使得静态设置难以应对复杂多变的现实需求。
近日,由腾讯 AI Lab 的王琰研究员及其团队领衔,联合香港中文大学(深圳)唐晓莹教授及其博士生王志超给出了一个优雅的答案。他们推出了名为 AutoDeco 的全新架构,旨在彻底终结手动解码的「手工作坊」时代。这项研究《The End of Manual Decoding: Towards Truly End-to-End Language Models》,通过让模型动态预测并控制自身的解码参数,向着真正端到端的语言生成迈出了关键一步。
- 论文链接: https://huggingface.co/papers/2510.26697
- 代码链接: https://github.com/Zacks917/AutoDeco
- 模型链接: https://huggingface.co/collections/Jadeislaw/autodeco

图 3:AutoDeco 位居 Hugging Face Daily Papers 榜首
当前,尽管 LLM 本身已高度集成,但其生成过程的「最后一公里」—— 解码,仍然是一个独立于模型之外的、不可微的僵硬环节。研究团队形象地将其比作「手动挡变速箱」:无论引擎(LLM)多么强大,换挡(调参)依然依赖人工操作。
AutoDeco 的核心思想,就是为 LLM 装上「自动挡」。它通过在标准 Transformer 架构中引入两个超轻量的预测头,让模型在生成每一个 token 时,都能根据当前的上下文信息,动态地预测出最适合下一步生成的 temperature 和 top-p 值。其架构如下图所示:

图 4:AutoDeco(上)与传统手动解码(下)的对比。AutoDeco 将解码参数的预测无缝集成到模型的前向传播中,实现了动态自调节。
核心挑战与技术突破:如何训练一个没有「标准答案」的任务?
设想很美好,然而,一个关键的挑战摆在研究团队面前:如何训练这些预测头?在训练数据中,并不存在每一时刻「正确」的温度和 top-p 标签,这使得监督学习无从谈起。
为此,团队提出了一种创新的、完全端到端的训练策略。他们设计了一种新颖的可微分「软性 top-p」(soft top-p)机制,巧妙地替代了传统 top-p 采样中不可微的「硬截断」操作。该方法分为三步:
(一)温度缩放:首先,使用模型预测的温度

对原始 logits l 进行缩放,得到初始概率分布 p。

(二)掩码生成:接着,计算概率的累积分布 c,并使用模型预测的 top-p 值

生成一个平滑的、可微分的掩码 m。其核心思想是,对于累积概率小于

的 token,掩码值为 1;对于超出部分的 token,掩码值通过一个指数衰减函数平滑地趋近于 0。

其中 α 是控制衰减陡峭程度的超参数。
(三) 最终概率分布:最后,将掩码应用到初始概率上并重新归一化,得到最终的可微分概率分布 p。


图 5:可微分的 soft top-p(橙色线)与传统的 hard top-p (绿色线)对比。Soft top-p 的平滑特性打通了从最终损失到解码参数预测头的梯度路径。
这一设计的巧妙之处在于,它使得从最终的「下一个词预测」损失到解码参数预测头的梯度能够顺畅回传。如此一来,模型便可以在标准的 Next Token Prediction 任务中,通过优化最终生成结果来「倒逼」自己学会如何动态调整解码策略,整个过程无需任何额外的标注数据。
AutoDeco 的惊人表现:三大亮点
通过在 Llama、Qwen、Deepseek 等多个主流模型家族上的广泛实验,AutoDeco 展现了其强大的能力:
- 卓越的性能与泛化能力
实验结果表明,AutoDeco 不仅稳定超越了传统的 Greedy Search 和 Default Sampling 等基线方法,其性能甚至能媲美、乃至超越了利用测试集进行精细调优的「神谕」基线(oracle-tuned baseline)。


图 6:AutoDeco 在多个数学和通用任务 benchmark 上均取得了 SOTA 性能,展现了其强大的泛化能力。
- 极致的效率与易用性
AutoDeco 的预测头设计极为轻量,其带来的额外推理延迟通常仅为 1.7%,内存开销也几乎可以忽略不计。对于开发者而言,接入 AutoDeco 模型仅需修改几行代码,即可享受「免费」的性能提升。
- 「言出法随」:开创性的自然语言控制能力
研究中最令人兴奋的发现之一,是 AutoDeco 涌现出的一种「通过自然语言控制解码」的能力。用户可以直接在 prompt 中通过自然语言下达指令,如「我希望答案更有创意」,模型便能「听懂」并自主地调高其预测的 temperature 和 top-p 值,整个过程清晰可见。

图 7:在不同指令下,AutoDeco 预测的 T/P 值变化。从左至右分别为:基线、高创造力指令(T/P 值自发升高)、高确定性指令(T/P 值自发降低)。
当然,作者坦言这种能力还不够完善,还做不到非常精准的控制。他们猜测实现细粒度、高精度的自然语言控制解码无法仅仅能通过微调 AutoDeco 模块做到,而是需要全参微调模型,这也被他们列为了 Future work 的重点。因此,作者没有放出带有自然语言控制能力的 AutoDeco heads 权重。
AutoDeco 在发布后迅速吸引全球 AI 社区的关注,在 Twitter 等社交平台上引发了顶尖学者、开发者和企业家的广泛热议和高度评价。

图 8:大模型社区对 AutoDeco 的广泛热议和高度评价。
目前,该团队已将论文、代码以及在多个主流模型上训练好的 AutoDeco heads 全面开源,包含适配于 Deepseek V3.1、Qwen3-235B、GPT-OSS-120B 等生产级大模型的版本。正如研究人员在分享中所说,这项工作旨在将研究者和开发者从繁琐的调参工作中解放出来,共同迈向一个更智能、更自动化的 AGI 新时代。
...
#英伟达发射了首个太空AI服务器
H100已上天
太空数据中心的能源成本将只有地面上的十分之一。
11 月 2 日,英伟达首次把 H100 GPU 送入了太空。
作为目前 AI 领域的主力训练芯片,H100 配备 80GB 内存,其性能是此前任何一台进入太空的计算机的上百倍。在轨道上,它将测试一系列人工智能处理应用,包括分析地球观测图像和运行谷歌的大语言模型(LLM)。
此次测试飞行搭载于位于弗吉尼亚州雷德蒙德的初创公司 Starcloud 的 Starcloud-1 卫星上,是该公司雄心勃勃的计划的第一步,该计划旨在将全球耗能巨大的数据处理基础设施迁移到太空。Starcloud 是 NVIDIA Inception 创业公司计划的成员。
支持者认为这个想法很有前景:在遥远的太空深处,数据中心不会占用宝贵的土地,也不需要那么多能源和水来冷却,它们也不会向大气中排放温室气体。
在算力逐渐紧张的 AI 时代,把芯片发射到太空已成为一个新的发展方向。此前,英伟达的 Jetson 机器学习计算板卡曾搭载于多颗实验型和地球观测小型卫星上。不过相比之下,本次 Starcloud 的行动可谓是建设太空数据中心的重要一步,这将是人类首次把地面数据中心的 GPU 送入轨道运行,为最早明年启动商业服务铺平了道路。

「在太空,你可以获得几乎无限的低成本可再生能源,」Starcloud 联合创始人、CEO Philip Johnston 表示。「对环境的唯一成本是发射成本。与在地球上为数据中心供电相比,在数据中心的整个生命周期内,二氧化碳排放量将减少 10 倍。」
这项为期三年的任务将由 SpaceX 的「Bandwagon 4」猎鹰 9 号火箭发射升空。仅重 60 公斤的 Starcloud-1 卫星将在距离地球约 350 公里的超低轨道上运行。在那里,它将接收来自美国 Capella 公司运营的合成孔径雷达 (SAR) 地球观测卫星群的数据,实时处理这些数据,并将信息传回地球。

Starcloud-1 卫星的内部结构,银色模块中装有一块 H100 GPU。该卫星基于 Astro Digital 的 Corvus-Micro 平台,预计任务寿命为 11 个月。
SAR 每秒预计会产生 10GB 的数据,在太空服务器出现之前,数据传输是个大问题。Johnston 表示:「但如果能够在轨道上处理这些数据,我们就只需下行传输关键信息。例如,信息可能显示某个位置有一艘船正以特定速度朝特定方向移动。这只需要一个 1 千字节的数据包,而下行传输未处理的数据则需要数百 GB。」
太空数据中心的优势
对于来自地球轨道卫星的数据进行轨道处理只是 Starcloud 愿景的一部分。该公司认为,随着火箭技术的进步,特别是 SpaceX 星舰预期带来的成本降低,未来的大规模计算基础设施可以部署在轨道上,而无需占用地球上宝贵的空间。
英伟达可持续发展负责人 Josh Parker 表示:「随着 AI 技术对能源需求的不断增长,轨道数据中心代表着一项变革性的环境突破 —— 它能大幅减少温室气体排放,并消除对先进冷却技术的需求。通过利用低成本、不间断的太阳能,避免占用土地和使用化石燃料,Starcloud 的技术使数据中心能够快速且可持续地扩展,从而在数字基础设施不断发展的同时,帮助保护地球气候和关键自然资源。」
据国际能源署预测,到 2030 年,全球数据处理基础设施的耗电量将与整个日本的用电量相当。数据中心还需要大量的水用于冷却 —— 世界经济论坛的数据显示,一个 1 兆瓦的数据中心每天的用水量相当于发达国家约 1000 人的用水量。随着人工智能的进步,计算需求持续增长,这些消耗也会与日俱增。人们越来越担心成本上升以及电力和供水中断的问题。该技术的支持者认为,将数据中心迁移到太空可以解决这些问题。
Starcloud 甚至预测在未来十年内,几乎所有新建数据中心都将建在太空,这完全是因为地面能源的限制。
Philip Johnston 指出,要让地球上的数据中心完全依靠绿色能源运行,需要对太阳能发电和电池储能系统进行大量投资。而在太空,由于阳光全天候可用,因此无需电池储能。此外,每个太阳能电池板在太空产生的电量是地球上同等容量太阳能电池板的八倍,这进一步降低了成本。
「我们在太空中唯一的额外成本就是发射费用。我们预计每公斤发射成本约为 500 美元,达到盈亏平衡点。而使用星舰后,预计发射成本会更低,」Philip Johnston 说道。

Starcloud 联合创始人、CEO Philip Johnston 正在检查用于卫星定向的星敏感器。
一旦星舰全面投入运营,其每公斤发射价格预计将在 10 美元到 150 美元之间。该运载火箭迄今已成功完成六次飞行,根据现在的时间表将于明年首次发射卫星,不过仍然存在较大的推迟可能性。
除了支持 SAR 之外,Starcloud 也计划在轨道上使用 H100 GPU 运行 Gemma(谷歌的开源模型),证明即使是大语言模型也可以在外太空运行。与此同时,Starcloud 已在筹划其下一个任务,其计划明年将一颗比 Starcloud-1 强大十倍的数据中心送入太空。
Starcloud-2 任务将搭载英伟达新一代 Blackwell GPU 和数块 H100。Johnston 表示,该任务将提供 7 千瓦的计算能力,预计将为包括地球观测卫星运营商和美国国防部在内的客户提供商业服务。
一颗功率更大的 100 千瓦卫星预计将于 2027 年入轨。Starcloud 公司认为,到 2030 年代初,它将在太空中拥有一个 40 兆瓦的数据中心,其数据处理成本与地球上的数据中心相当。

Starcloud 的团队成员。
Starcloud 是众多计划将计算外包到太空的公司之一。Axiom Space 公司今年早些时候也公布了类似的计划。总部位于佛罗里达州的 Lonestar Holdings 公司今年早些时候通过 Intuitive Machines-2 任务将一个小型数据中心送上月球,并计划在未来几年内在月球上建立大型数据中心。
参考内容:
https://blogs.nvidia.com/blog/starcloud/
...
#FractalForensics
新加坡国立大学提出FractalForensics,基于分形水印的主动深度伪造检测与定位
本文作者包括新加坡国立大学的王天一 (第一作者)、程轩昂、Mohan Kankanhalli (通讯作者),和山东大学的刘明慧。
工作动机
近些年来,针对深度伪造 (Deepfake) 的主动防御研究角度逐渐受到广泛关注。在现有工作中,鲁棒水印和半脆弱水印分别在 Deepfake 检测任务取得一定进展,但仍普遍存在如下问题:
- 面对常规图像处理 (如高斯噪声) 时的鲁棒性不稳定。
- 暂不具备同时进行鉴伪和伪造区域定位的功能。
- 通过比对水印来判断真伪而存储 ground-truth 的操作大量消耗了计算资源。
工作介绍
为解决上述问题,该论文提出 FractalForensics,一种基于分形水印的主动深度伪造检测与定位方法。不同于以往的水印向量,为达成伪造定位的功能,论文提出的水印以矩阵形式出现。
- 论文地址:https://arxiv.org/abs/2504.09451
首先,该论文设计了一个水印生成和加密流程 (图 1),旨在使整个流程参数化。依赖于基于参数的分形几何形状及其具备的可迭代特性,先将其选择作为水印的基础 (本文以标准希尔伯特曲线为例)。
其后,分别定义旋转 (r), 镜像 (m), 次序改变 (o) 三个变体参数,为分形水印的形状变化提供多样性 (在该论文实验中,所有参数组合共可得 144 种分形变体)。
进一步地,针对以迭代顺序标记的分形矩阵,构建一个混沌加密系统,基于参数 x_0 和 a 来决定混沌序列的迭代,并基于参数 k 和 d 来分别选择开始选取用于加密的值和位数,按照矩阵中的数字顺序对其进行加密。

图 1: 基于参数的水印生成和加密流程。
如图 1 所示,假设搭建一个用户服务平台,嵌入并封装该水印生成和加密流程,相比于预先保存所有的水印 ground-truths,用户可自选每个参数的值来构建和加密水印,且只需保存所选参数即可。加密后的矩阵中的值是 0 到 9 之间的一位十进制数字,而为了获得更大的水印嵌入和提取容错率,本方法将所有十进制值转化成四位二进制值。
该论文中的水印嵌入与提取模型主要基于卷积神经网络 (图 2)。在水印嵌入阶段,考虑到图片对于水印嵌入的合理容量,论文提出 entry-to-patch 策略,将图片划分为相同大小的相同 patch (本文中 patch 的大小为 32 x 32),并将水印矩阵以位置对应的方式向图片中嵌入。
详细来说,在加密后的水印中,每个四位二进制水印值被调整维度至通道数为 4 的相同空间位置的值,从而不破坏水印和图片对应的位置关系。

图 2: 水印嵌入与提取流程。
同时,为保证 patch 之间对应的水印尽可能互不影响,在图像特征映射、水印扩散、水印嵌入等过程中,卷积核的大小被设为远小于 patch 大小的值。当针对被 Deepfake 篡改后的图片提取水印时,得益于 entry-to-patch 的嵌入策略,被篡改的区域会丢失水印,而反之则保留水印,由此可在进行 Deepfake 检测的同时完成伪造定位 (如图 2 右下人脸图片中标红所示丢失水印的区域)。
实验结果
由于 Deepfake 对人脸图片中对应区域内容特征的修改,该水印嵌入流程对其具有天然的脆弱性。因此,经过针对 Jpeg 压缩的对抗训练以确保水印鲁棒性之后,便可获得期待的鲁棒性和脆弱性。如表 1 所示,该文章所提出的水印在面对常见图像处理方法时维持了最优的鲁棒性,并如表 2 所示,在面对 Deepfake 伪造方法时展现了合理的脆弱性。

表 1: 在 CelebA-HQ 数据集上面对常见图像处理方法的水印鲁棒性评估。

表 2: 在 CelebA-HQ 数据集上面对 Deepfake 伪造方法的水印脆弱性评估。
进一步地,该文章根据水印恢复率的鲁棒性和脆弱性之间的显著差异,计算了 Deepfake 检测的 AUC 效果,并与被动检测的 SOTA 工作进行对比取得了最优检测效果,具体实验结果如表 3 所示。

表 3: 在 CelebA-HQ 上进行的 Deepfake 检测效果比较与评估。
伪造定位的效果如图 3 和图 4 所示。基于水印鲁棒性,在面对良性图像处理时不会定位伪造区域;基于水印脆弱性,由于 face swapping 方法主要篡改人脸内部区域,因此定位的伪造区域也主要聚焦在人脸位置,而 face reenactment 因篡改区域更广则导致定位的区域分布更离散。

图 3: 针对常见良性图像处理方法的伪造定位。

图 4: 针对恶意 Deepfake 伪造方法的伪造定位。
第一作者信息
王天一,本科毕业于美国华盛顿大学西雅图分校,取得计算机科学和应用数学双专业学位;博士毕业于香港大学,取得计算机科学博士学位;现为新加坡国立大学在职博士后研究员,在 ICCV、ICML、NeurIPS、AAAI、TIFS、TKDE、ACM Computing Surveys 等高水平会议和期刊发表论文 30 余篇,研究方向包括多媒体取证、虚假信息检测等。
...
#DLER
英伟达帮你省钱,让大模型推理「短而精」,速度快5倍
大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。
如果 scale-up 长链思维是通往 AGI 的路径,那么现有思维链的冗长问题是我们亟待解决的。
那么,能不能让模型「少说废话」,既快又准?
过去的尝试大多失败:各种复杂的长度惩罚(Length Penalty)要么让模型乱答,要么训练不稳定,结果就是效率提升了,准确率却掉了。
现在,英伟达研究院的最新研究给出了答案:关键不在于设计多复杂的惩罚,而在于用对强化学习优化方法。
- 论文标题:DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning
- 论文链接: https://arxiv.org/html/2510.15110v1
- 项目主页: https://nvlabs.github.io/DLER/

DLER 来了!推理模型的「减长秘籍」
DLER 首先是细致及全面了分析了引入长度惩罚之后出现的新的强化学习训练问题,包括:
- Reward 信号方差增大
- 「Aha Moment」词不当处理带来的熵塌缩
- 训练信号过度稀疏 (刚开始训练的时候大部分生成都超过了预设长度)
对于这些问题,DLER 提出了一套简单却强大的强化学习训练配方:
- Advantage normalization with local mean and batch std:替代 GRPO,稳定训练信号,避免因截断惩罚带来的高方差。
- Higher clip:提升高熵探索,防止模型「思想僵化」。
- Dynamic sampling:丢掉无效样本,聚焦真正有价值的推理路径。
- Truncation penalty:最简单的「截断惩罚」,不给超长输出任何奖励。
基于 DLER 这套训练方法,得到的模型结果令人震惊。新模型产生的推理长度竟然可以减少 70% 以上,但准确率完全保持。在 AIME-24 数学基准上,DLER-Qwen-R1-7B 平均仅用 3230 Tokens 就达到 55.6% 准确率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。

DLER 不仅实现了回复问题更短的输出,更是从另外角度增加了每 token 的智能含量。 在同样的推理时间内,相比于传统的推理模型只能生成一条冗长推理,DLER 模型能并行生成几十条简明推理,最终准确率比 DeepSeek-R1 高出近 50%。这一实验也意味着高效推理才是 Test-time Scaling 的关键。
关键发现
DLER 的研究揭示了几个颠覆性结论:
- 推理效率的提升,不取决于惩罚设计的复杂度,而取决于优化算法的选择。
- 过去大家以为 RL 长度惩罚「必然掉准确率」,其实只是因为优化方法没选对。
- 简单的截断惩罚 + 正确的优化器,就能让模型学会「短而精」的思考方式。
更令人惊喜的是,DLER 不仅适用于小模型,在大模型上同样奏效。研究团队还提出了权重选择性合并(magnitude-selective weight merging),解决了大模型用公开数据微调时的性能下降问题:既能恢复全部准确率,又能保持近一半的长度压缩。
总结
这项来自 NVIDIA 的最新工作,让我们重新认识了推理模型的未来方向。首先,推理模型不能只是一味拉长推理链条,而是需要更聪明、更高效地思考。其次,通过 DLER,模型能以更少的 Tokens、更短的时间,做到更高的准确率。 如果说之前的研究 ProRL 让模型「开窍」,那么 DLER 就是帮模型「瘦身健身」,让它们更快、更强、更实用。未来在实际部署中,DLER 无疑会成为让推理模型真正落地的关键技术之一。
...
#GenAI在自适应系统中的现状与研究路线图
论文《Generative AI for Self-Adaptive Systems: State of the Art and Research Roadmap》的作者包括来自早稻田大学博士及研究助理 李家隆、西南大学讲师 张明悦、中关村国家实验室助理研究员 李念语(通讯作者)、鲁汶大学教授 Danny Weyns、北京大学教授 金芝以及东京工业大学长聘副教授 Kenji Tei。
- 论文地址:https://dl.acm.org/doi/10.1145/3686803
- GenAI4SAS 论文列表:https://github.com/545659928/GenAI4SAS
自适应系统在动态和不确定的环境中具有关键作用,广泛应用于自动驾驶、智能制造、网络安全和智能医疗等领域。例如,无人驾驶系统需要实时感知环境变化并调整策略以确保安全与效率;智能制造生产线根据需求变化或设备故障自动调整;网络安全系统则通过自动检测和适应新威胁来应对不断变化的攻击方式。这些系统通过自我调整机制,实现自我管理和优化。

图 具有 MAPE-K 反馈循环的自适应系统
自适应系统依赖反馈回路,无需人为干预即可实现自动调整,核心功能包括:监控环境和系统状态、分析情况、制定调整计划并执行。其优势在于根据外部环境和内部状态的变化,维持系统稳定和高效运行。
生成式人工智能(GenAI)通过 AI 技术从数据中学习模式,生成与原始数据相似的新数据。Transformer 技术的突破使得 GenAI 在多个领域广泛应用,尤其是大型语言模型(LLMs)在语言理解和逻辑推理方面表现突出,为自适应系统提供了新的可能性。
GenAI 与自适应系统的核心功能相结合,能够显著增强系统的自适应能力。例如,GenAI 可以分析并规划系统策略,自动调整配置以应对环境变化。尽管已有一些研究探索了 GenAI 在自适应系统中的应用,但该领域尚缺乏系统性和深入的研究。因此,本论文旨在为研究人员和从业者提供生成式人工智能(GenAI)在自适应系统中的应用潜力及面临挑战的全面概览。

GenAI 在自适应系统中的应用潜力
我们从 2017 年至 2024 年 6 月的顶级会议中筛选出 5874 篇文献,最终筛选出 219 篇与 GenAI 和自适应系统相关的研究。筛选后的文献从两种视角展开分析:第一个视角聚焦于 GenAI 在增强自适应系统功能和自主性方面的潜力,探讨其在监控、分析、规划、执行等核心模块中的应用及知识共享。第二个视角探讨了在 “人类监督自适应系统”(HOTL)中,GenAI 如何改善人与系统的互动。虽然自适应系统原本希望减少人为干预,但引入人类决策可以提高系统的可信度和效率。重点关注用户偏好获取、系统透明度和人机协作,以提升用户满意度、系统解释性和效率。

图:GenAI 在自适应系统中的应用潜力概览
监控功能:GenAI,特别是 LLMs,在上下文理解和预测方面显著增强了自适应系统的监控能力。LLMs 可将监控收集的非结构化数据进行结构化处理,辅助异常检测;在上下文预测方面,基于 LLM 和扩散模型的时间序列和事件序列预测可识别潜在的目标违规风险。
分析和规划功能:GenAI 在自适应系统的分析和规划中有巨大潜力。LLMs 支持架构和需求驱动的适应,扩展了系统处理自然语言和非结构化数据的能力。LLMs 和 Diffusion 模型还能生成先验知识,提升模型性能并降低成本。新兴的规划方法包括:基于 Transformer 的规划适合离线学习和大规模系统;集体智能模式促进多智能体协作;经验积累模式支持自我反思和进化;扩散模型支持复杂约束的高维规划。
执行功能:虽然自适应系统的执行通常较简单,但 LLMs 在复杂情况下的执行转换中仍有潜力,尤其是在机器人领域中,LLMs 展现了在不确定环境下成功执行规划的能力。
知识管理:LLMs 有两个主要优势:一是利用其广泛的知识构建模型,尽管这些模型可能需要通过反馈调整以贴近现实;二是通过 LLMs 的翻译能力将自然语言转化为专用领域建模语言(DSML),大幅减少手动建模成本。
偏好获取:LLMs 通过其常识和语言理解能力,能够从用户反馈或行为历史中推断出硬性约束、效用函数或个性化需求。然而,如何处理多目标环境下的偏好冲突(如成本与效率的平衡)仍需进一步探索。
透明性:LLMs 具有解释代码、决策模型和系统日志的潜力,并能生成更直观的可视化展示。目前代码动态行为的解释较为有限,改进方向包括为不同类型的决策模型提供适当上下文信息,并利用运行结果提高解释的准确性。LLMs 还可用于模型解释性研究,如使用决策树作为代理模型解释复杂的深度学习模型,辅助特征选择和重要性分析。
协作:LLMs 初步应用于任务分配、协作行为和用户纠正,推断用户意图并规划协作模式。未来的研究可以深入探索高级意图推断、多模态输入输出,以及分析用户参与的影响,以优化人机协作的自适应能力。

图:路线图展示了自适应系统中的软件工程关键点(左侧)与 LLMs 在自适应系统中的应用挑战(中间)之间的对应关系,以及这些挑战与自适应系统关键功能(右侧)的映射关系。
当前研究的不足和未来的发展方向:
设计时方法应用于运行时:设计时方法侧重初始设计,依赖历史数据和专家知识;运行时则需实时调整在线数据,并要求 GenAI 做出自主决策。改进提示工程、明确任务与上下文、验证模型稳健性是解决方案。
LLM 即服务(LLMaaS):LLMaaS 将 LLMs 作为按需提供针对特定领域的云服务。自适应系统需要将 LLMs 作为系统组件进行集成和管理,类似于 API 和微服务。其次,由于 LLMs 的输出具有概率性,可能对相同输入产生不同结果,如何在适应过程中管理这些不确定性成为关键问题。
观察和表示:自适应系统通过监控收集数据,并进行概念化、存储和利用。多模态 LLMs 处理多种数据,但其复杂性增加了设计难度。不同格式(如 HTML、XML、JSON)的表示效果差异,需要在语境质量与推理成本之间找到平衡。
LLM 增强的分散控制:LLMs 在多代理系统(LLM-MAS)中可提升集体智能,但代理间的经验共享不足影响效率,且随代理数量增加,通信成本升高。未来需开发高效的通信协议和多代理协作技术。
自适应与个性化交互:LLMs 可帮助定制化交互界面,深入理解用户偏好,增强人类在回路(HOTL)的应用,但仍需解决用户知识差异和互动能力不足的问题。
伦理与责任:随着 GenAI 自主性增强,责任归属变得模糊,特别是在自适应系统和自动决策中,如何界定 GenAI 与人类责任是未来的研究重点。
评估工件:评估工件(如数据集、基准和示例)对自适应系统研究至关重要,但现有示例(如 DeltaIoT、DARTSim)在评估 LLM 时面临两大挑战:观察空间与 LLM 需求不匹配,且缺乏知识模块。未来示例应保留 LLM 所需的观察空间并模块化知识组件。虽然 LLM 可作为端到端模型使用,但通常作为模块集成,评估面临提示鲁棒性和输出质量等问题,需专门的评估工具。
自我测试:自我测试在自适应系统中面临两个挑战:复杂的配置和无法预见的运行时变化。虽然传统离线测试部分缓解问题,但在线、运行时和现场测试正逐步探索。LLMs 已用于故障定位、漏洞检测、生成测试用例和模糊测试,但应用于自适应系统仍有限。Ceprot 是唯一相关研究,自动更新过时测试用例。自我测试可视为 MAPE-K 循环的一部分,LLMs 的能力有望推动其进一步发展。
自我进化:软件进化指持续更新软件以修复问题或提升性能。现有研究多利用 LLMs 进行漏洞修复和自动化程序修复,但自适应系统中的自动化进化研究有限。LLMs 可以通过集体智能(如 metaGPT 自动化开发流程)以及自主学习(学习新技能以应对运行时的变化)实现自我进化。同时,系统的自我进化可能会伴随专用领域建模语言(DSML)的演进,以便更有效地描述系统的新特性。未来的研究应重点关注这种系统进化与 DSML 进化的协同关系。
...
#Llama 3.2
支持图像推理,还有可在手机上运行的版本
今天凌晨,大新闻不断。一边是 OpenAI 的高层又又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。
不仅如此,Meta 还正式发布了 Llama Stack Distribution,其可将多个 API 提供商打包在一起以便模型方便地调用各种工具或外部模型。此外,他们还发布了最新的安全保障措施。
真・Open AI 诚不我欺!各路网友和企业都纷纷激动地点赞。要知道,现在距离 7 月 23 日 Llama 3.1 发布才刚刚过去 2 个月。
Meta 首席 AI 科学家 Yann LeCun 也欢快地表达了自己的喜悦:「乖宝宝羊驼!」
Meta 也借此机会重申了他们一贯的主张:「通过开源人工智能,我们才能确保这些创新能够反映和造福于其所服务的全球社区。我们将通过 Llama 3.2 继续推动让开源成为标准。」
Llama 家族是在今天的 Meta Connect 2024 大会上迎来升级的。这一次,我们终于有了可以在边缘设备和移动设备上本地运行的轻量级 LLM(Llama 3.2 1B 和 3B)!同时,小型和中型版本也获得了相应更新,参数量也都各有大幅增多,因为它们都获得了一个重大升级:可以处理视觉数据了!也因此,它们的模型卡都加上了 Vision 标签。
- Llama 3.1 8B 升级成 Llama 3.2 11B Vision
- Llama 3.1 70B 升级成 Llama 3.2 90B Vision
Llama 系列模型发布至今不过一年半时间,其取得的成就着实让人惊叹。Meta 表示:今年,Llama 实现了 10 倍的增长,并已经成为「负责任创新」的标准。Llama 持续在开放性、可修改性和成本效率方面保持领先地位,并且足以与封闭模型竞争 —— 甚至在某些领域还处于领先地位。
Meta 表示:「我们相信开放能推动创新并且是正确的前进道路,因此我们会继续分享我们的研究并与我们的合作伙伴和开发者社区合作。」
现在我们马上就可以开始上手体验:
官网下载:https://llama.meta.com
Hugging Face:https://huggingface.co/meta-llama
目前 Llama 3.2 最大的两个模型 11B 和 90B 都支持图像推理,包括文档级的图表理解、图像描述和视觉定位任务,比如直接根据自然语言描述定位图像中的事物。
举个例子,用户可以提问:「去年哪个月的销售情况最好?」然后 Llama 3.2 可以根据可用图表进行推理并快速提供答案。
至于轻量级的 1B 和 3B 版本,则都是纯文本模型,但也具备多语言文本生成和工具调用能力。Meta 表示,这些模型可让开发者构建个性化的、在设备本地上运行的通用应用 —— 这类应用将具备很强的隐私性,因为数据无需离开设备。
在本地运行这些模型具有两大主要优势:
- 提示词和响应可以带来即时完成的感觉,因为处理过程都在本地进行;
- 本地运行模型时,无需将消息和日历等隐私信息上传到云端,从而保证信息私密。由于处理是在本地进行,因此可让应用判断哪些任务可以在本地完成,哪些需要借助云端的更强大模型。
模型评估
Meta 也发布了 Llama 3.2 视觉模型的评估数据。整体来说,其在图像识别等一系列视觉理解任务上足以比肩业界领先的基础模型 Claude 3 Haiku 和 GPT4o-mini。另外,在指令遵从、总结、提示词重写、工具使用等任务上,Llama 3.2 3B 模型的表现也优于 Gemma 2 2.6B 和 Phi 3.5-mini;同时 1B 的表现与 Gemma 相当。
具体来说,Meta 在涉及多种语言的 150 多个基准数据集上对 Llama 3.2 进行了评估。对于视觉 LLM,评估基准涉及图像理解和视觉推理任务。


视觉模型
Llama 3.2 11B 和 90B 模型是首批支持视觉任务的 Llama 模型,因此 Meta 为其配备了支持图像推理的全新模型架构。
具体来说,为了支持图像输入,Meta 训练了一组适应器权重(adapter weight),其可将预训练的图像编码器集成到预训练的语言模型中。该适应器由一系列交叉注意层组成,这些层的作用是将图像编码器表征馈送给语言模型。为了将图像表征与语言表征对齐,Meta 在「文本 - 图像对」数据上对适应器进行了训练。在适应器训练期间,Meta 选择更新图像编码器的参数,但却有意不更新语言模型参数。这样一来,便可以保持所有纯文本能力不变,让开发者可以直接使用 Llama 3.2 替代 Llama 3.1。
具体的训练流程分成多个阶段。从已经完成预训练的 Llama 3.1 文本模型开始,首先,添加图像适应器和编码器,然后在大规模有噪声的成对 (图像,文本) 数据上进行预训练。接下来,在中等规模的高质量域内和经过知识增强的 (图像,文本) 对数据上进行训练。
在后训练阶段,再使用与文本模型类似的方法进行多轮对齐,这会用到监督式微调、拒绝采样和直接偏好优化。他们还使用了合成数据生成,具体做法是使用 Llama 3.1 模型来过滤和增强在域内图像上的问题和答案,并使用一个奖励模型来给所有候选答案进行排名,从而提供高质量的微调数据。此外,为了得到高安全性且有用的模型,Meta 还添加了安全缓解数据。
最终,Meta 得到了一系列同时支持图像和文本提示词的模型,并且有能力在图像和文本组合数据上执行深度理解和推理。Meta 说:「向着具备更丰富智能体能力的 Llama 模型,这是迈出的又一步。」

轻量级模型
正如 Meta 在发布 Llama 3.1 时提到的,可以利用强大的教师模型来创建更小的模型,这些模型具有更好的性能。Meta 对 1B 和 3B 模型进行了剪枝和蒸馏,使它们成为首批能够在设备上高效运行的轻量级 Llama 模型。
通过剪枝技术,能够在尽量保留原有知识和性能的前提下,显著减小 Llama 系列模型的体积。在 1B 和 3B 模型的开发过程中,Meta 采用了一次性的结构化剪枝策略,这一策略从 Llama 3.1 的 8B 衍生而来。具体来说,Meta 系统地移除了网络中的某些部分,并相应地调整了权重和梯度的规模,从而打造出了一个体积更小、效率更高的模型,同时确保了它能够维持与原始网络相同的性能水平。
在完成剪枝步骤之后,Meta 应用了知识蒸馏技术,以进一步提升模型的性能。
知识蒸馏是一种通过大型网络向小型网络传授知识的技术,其核心思路是,借助教师模型的指导,小型模型能够实现比独立训练更优的性能。在 Llama 3.2 的 1B 和 3B 模型中,Meta 在模型开发的预训练阶段引入了 Llama 3.1 的 8B 和 70B 模型的输出,用作训练过程中的 token 级目标。

在 post-training 阶段,Meta 采用了与 Llama 3.1 相似的方法 —— 在预训练模型的基础上进行多轮对齐,其中每一轮都包括监督式微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。
具体来说,Meta 将上下文窗口长度扩展到了 128K 个 token,同时保持与预训练模型相同的质量。
为了提高模型的性能,Meta 也采用了生成合成数据的方法,他们筛选高质量的混合数据,来优化模型在总结、重写、遵循指令、语意推理和使用工具等多种能力。


以上演示基于一个未发布的量化模型

以上演示基于一个未发布的量化模型
已经有动作快的网友对 Meta 新发布的轻量级模型进行了测试。他表示新的 1B 模型的能力好得出人意料,毕竟这个模型的参数量如此之小。具体来说,他让 Llama 3.2 1B 分析了一个完整的代码库,结果发现其表现虽不完美,但已经相当优秀了。

Llama Stack 发行版
在七月份,Meta 就发布了 关于 Llama Stack API 的征求意见稿,这是一个标准化的接口,用于规范工具链组件(微调、合成数据生成)来定制 Llama 模型并构建代理应用程序。从那时起,Meta 一直在努力使 API 成为现实,并为推理、工具使用和 RAG 构建了 API 的参考实现。
此外,Meta 还引入了 Llama Stack Distribution,作为一种将多个 API 提供者打包在一起的方式,以便为开发人员提供一个单一的端点。Meta 现在与社区分享一个简化和一致的体验,这将使开发者能够在多种环境中使用 Llama 模型,包括本地、云、单节点和设备上。

Meta 发布的完整系列包括:
- Llama CLI(命令行界面),用于构建、配置和运行 Llama Stack 发行版
- 多语言客户端代码,包括 Python、Node、Kotlin 和 Swift
- Llama Stack Distribution Server 和 Agents API Provider 的 Docker 容器
- 多个发行版
- 通过 Meta 内部实现和 Ollama 提供的单节点 Llama Stack 发行版
- 通过 AWS、Databricks、Fireworks 和 Together 提供的云 Llama Stack 发行版
- 通过 PyTorch ExecuTorch 在 iOS 上实现的设备上 Llama Stack 发行版
- 由 Dell 支持的本地 Llama Stack 发行版

系统级安全
Meta 表示,采取开源的方法有许多好处,它有助于确保世界上更多的人能够获得人工智能提供的机会,防止权力集中在少数人手中,并通过社会更公平、更安全地部署技术。「随着我们继续创新,我们也希望确保我们正在赋予开发者构建安全和负责任的系统的能力。」
在先前的成果和持续支持负责任创新的基础上,Meta 已经发布了最新的安全保障措施:
- 首先,他们发布了 Llama Guard 3 11B Vision,它旨在支持 Llama 3.2 的新图像理解能力,并过滤文本 + 图像输入提示或这些提示的文本输出响应。
- 其次,由于 Meta 发布了 1B 和 3B 的 Llama 模型,用于更受限的环境,如设备上使用,他们还优化了 Llama Guard,大幅降低了其部署成本。Llama Guard 3 1B 基于 Llama 3.2 1B 模型,经过剪枝和量化,其大小从 2,858 MB 减少到 438 MB,使其部署变得更加高效。
这些新解决方案已经集成到 Meta 的参考实现、演示和应用程序中,并且从第一天起就可供开源社区使用。

参考链接:https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
...
#MMSearch
多模态大模型也可以作为搜索引擎了?
首篇将多模态llm应用到AI搜索引擎的新工作!
论文:https://arxiv.org/pdf/2409.12959
主页:https://mmsearch.github.io
代码:https://github.com/CaraJ7/MMSearch
数据集:https://huggingface.co/datasets/CaraJ/MMSearch
1、背景
随着大型语言模型(LLMs)的出现,人工智能搜索引擎(如SearchGPT)展示了人类与互联网交互的新范式。然而,当前大多数AI搜索引擎仅限于文本设置,忽视了用户查询的多模态性质和网站信息的文本-图像交错特性。 虽然大型多模态模型(LMMs)最近取得了令人印象深刻的进展,但它们是否能作为AI搜索引擎发挥作用仍未得到充分探索。
为了填补这一研究空白,研究团队提出了MMSEARCH-ENGINE框架和MMSEARCH测试集,并进行了广泛的评估:
MMSEARCH-ENGINE旨在赋予任何LMMs多模态搜索能力。 它不仅支持包含图像的查询,还同时输入文本和视觉的网页信息,确保全面理解网页内容。该框架的工作流程包括问题重构、网页排序和答案总结三个关键步骤,充分利用了LMMs的多模态信息理解能力。
MMSEARCH测试集是首个专门评估LMMs多模态搜索能力的综合性测试集。 它包含300个精心收集的问题,涵盖14个子领域,内容分为新闻和知识两大类。新闻类别聚焦于数据收集时(2024年8月)的最新信息,而知识类别则收集了需要罕见知识才能回答的查询。这种设计确保了测试内容与现有LMMs的训练数据不重叠,从而保证了评估的挑战性和有效性。
研究团队对多个闭源和开源LMMs进行了广泛的实验和评估。结果显示,GPT-4o在各项任务中表现最为出色。值得注意的是,配备了MMSEARCH-ENGINE的SoTA LMMs在端到端任务中甚至超越了知名的商业产品Perplexity Pro。 然而,我们详尽的错误分析也揭示了当前LMMs在多模态搜索特定任务上的不足,特别是在问题重构和网页排序方面的能力限制了它们正确识别有用网站和提取相关答案的能力。最后,由于多模态搜索本身是一个复杂的任务,我们进行了一个消融实验,在端到端多模态搜索任务上验证了最近由OpenAI o1提出的发现:相比于增大模型结构,推理时的额外计算有更好的性能。

2、关键设计与数据组成1. MMSearch-Engine框架
MMSEARCH-ENGINE包含三个关键阶段:问题重构、网页排序和答案总结。
a) 在问题重构阶段,LMM需要理解用户的原始查询(可能包含对图像的引用),并将其转化为适合传统搜索引擎的文本查询。为了增强视觉理解能力,使得LMM能充分捕捉到输入的图片中的关键背景信息和人物,系统还集成了Google Lens的图像搜索结果。
b) 在网页排序阶段,系统从搜索引擎API(如DuckDuckGo)获取前K个相关网站,然后让LMM从中选择最具信息量的网站。为了克服LMM的上下文长度限制,系统只提供每个网站的关键信息,包括标题、摘要和网页顶部的截图。
c) 在答案总结阶段,系统对选定的网站进行全面爬取,获取原始文本内容和完整页面截图。为了提高效率,系统会对截图进行裁剪,并使用文本嵌入模型从原始内容中检索出与查询最相关的部分(最多2K个输入Token)。最后,LMM基于这些信息生成答案摘要。

2. MMSearch测试集
MMSearch测试集提供了一个全面的多模态搜索能力评估基准。测试集涵盖了广泛的新闻话题和专业知识领域,以模拟各种用户搜索场景。
测试集中的数据被分为两个领域:新闻和知识。
- 新闻领域包含从2024年5月到2024年8月的最新信息,确保与现有LMM的训练数据不重叠,这部分作为基准的动态部分。
- 知识领域则聚焦于特定领域的罕见知识,超出了现有顶级语言模型(如GPT-4或Claude 3.5 Sonnet)的能力范围,构成基准的静态部分。
我们的测试集总共收集了300个查询,分布在14个子领域中。我们的数据收集过程模拟了实际搜索流程。标注者首先提出问题并提供答案,然后给出重构的问题,这个重构的问题用来提交给搜索引擎的API。标注者对搜索结果进行分类,分为有效、不确定和无效三类,并确保至少有一个有效网站。接着,我们从有效网站中随机选择一个获取完整内容,包括全屏的截图和全部的内容。为了保证问题可以被正确回答,另一名标注者需要验证问题的可回答性,从而确保数据质量。

3. 评估标准
评估任务包括四个部分:问题重构、网页排序、答案总结和端到端任务。前三个任务评估LMM在搜索框架中各个阶段的能力,而端到端任务则模拟真实世界的完整搜索场景,依次执行所有三个阶段。这个基准测试的设计旨在全面评估LMM在多模态搜索中的各项能力,从查询生成到结果分析的整个过程都被纳入考量。通过这种方法,可以深入了解LMM在处理复杂、多样化搜索任务时的表现,为进一步改进和优化多模态搜索技术提供有价值的见解。


4. 数据集更新
为确保评估的公平性和时效性,MMSEARCH的新闻领域问题时间跨度从2024年5月1日到8月31日,确保所有测试数据都超出了现有LMM的知识截止日期。随着新模型的发布,数据集会进行动态更新,以维持评估的有效性。

3、实验与结论
我们在MMSearch benchmark上测评了11个现有的LMM,并且对于开源模型,测试了低分辨率以及高分辨率的输入,如下表所示。其中AnyRes表示使用模型提供的高分辨率技术,而LowRes则表示将图片resize到和模型的vision encoder规定的大小。

基于测评,我们得到了如下的发现与结论:
- 高分辨率的输入并没有为大部分的LMM带来明显的性能增益。 这一发现与常见的测试集的测试结果是不一致的,说明对于内容的感知并不是当前LMM做不好多模态搜索任务的瓶颈,而是由于在某些其他与搜索相关的能力上有明显的欠缺,比如问题重构与抽取有用的信息。
- LMM在问题重构与网页排序能力上有明显的欠缺。 LMM在端到端任务与答案总结任务的性能上有显著的差异,这其实揭示了它们在问题重构和网页排序能力上的普遍不足。根据结果发现,所有模型的摘要任务得分都明显高于端到端任务得分,其中开源模型的差距尤为明显。这种差异主要源于端到端任务对模型前两轮处理能力的依赖。
- 闭源与开源LMM模型仍有显著的性能差距。 研究表明,闭源LMM在各项指标上普遍优于开源模型。其中,GPT-4o以62.3%的最高总分展现出卓越的零样本多模态搜索能力。虽然Qwen2-VL-72B在开源模型中表现最佳,但仍落后GPT-4o 9.6个百分点。在最具挑战性的端到端任务中,这一差距进一步扩大到11.3%,对于7B级开源LMM,差距甚至达到20.1%。
- MMSearch-Engine在端到端任务中超越了商业AI搜索引擎Perplexity Pro。 尽管Perplexity Pro使用了如GPT-4和Claude 3.5 Sonnet等先进的大型语言模型,但在相同模型的配置下,其性能仍然明显落后于MMSEARCH-ENGINE。更为显著的是,MMSEARCH-ENGINE甚至在使用开源的Qwen2-VL-72B模型时也能超越Perplexity Pro。这一发现突显了MMSEARCH-ENGINE作为开源多模态AI搜索引擎方案的潜力。 研究者发现Perplexity表现不佳的原因可能在于其仅使用了基础的图像搜索算法,导致无法准确识别图像中的关键对象并检索相关信息。
最后,利用我们的端到端的多模态搜索的任务,我们进行了初步的扩展测试时的计算和扩大模型规模的比较的研究。实验使用了LLaVA-OneVision-7B模型来测试扩展测试时计算的效果,并与扩展模型规模的LLaVA-OneVision-72B进行对比。研究采用了类似于"best-of-N"的多模态搜索策略,其中N设为25。具体步骤请见原论文。
结果显示,通过扩展测试时计算,LLaVA-OneVision-7B的端到端任务得分从29.6%显著提升至55.2%,超过了LLaVA-OneVision-72B的44.9%和GPT-4V的52.1%。这一发现凸显了扩展测试时计算的巨大潜力,验证了OpenAI o1引入的这一技术的有效性。
...
#多模态版本的OpenAI o1
OpenAI 的 O1 通过引入推理链条来增强逻辑推理能力,受到了广泛关注。然而,CloseAI 并没有对 OpenAI O1 进行开源,甚至没有公布足够的技术细节。最近,社区内尝试了一些低成本实现 OpenAI O1 的方案,比如 G1 和 O1。
为了应对图像理解这一关键能力的需求,我们开发了 Multimodal Open-O1(MO1)项目,利用开源多模态模型(如 Qwen2VL 7B)作为测试模型,来实现多模态版本的 OpenAI O1。值得一提的是,MO1 项目中的模型可以灵活替换为其他开源或闭源的多模态大模型(MLLM),以满足不同的应用需求。
目前,该项目还处于开发初期阶段,我们真诚地欢迎更多开发者和研究者加入我们,共同参与开发和优化。请给项目加星(star),并贡献你的智慧和力量!
项目链接
https://github.com/xmu-xiaoma666/Multimodal-Open-O1
实验设置
我们使用 Qwen2VL 7B 作为测试模型,该模型可以灵活替换为其他开源或闭源的多模态大模型(MLLM)。实验结果显示,在某些案例中,利用推理链策略,模型性能确实优于原有方案。
实验记录
多模态场景
Case1: 物体计数

image
问题:How many fruits are there in the picture?
思考过程:
|
Thinking Step 1: |
The task is to count the number of fruits in the picture. The image contains eight different fruits. |
|
Thinking Step 2: |
To count the fruits, I will examine each one individually. There are 8 fruits in total. |
|
Final Answer |
There are 8 fruits in the picture. |
最后的回答:
There are 8 fruits in the picture.
Case2: 方向感知

image 1
问题:右下角的水果是什么?
思考过程:
|
Step |
Content |
|
Thinking Step 1: |
The image shows a collection of fruits. The bottom right corner contains a cluster of dark purple grapes. This is the fruit we need to identify. |
|
Final Answer |
The fruit in the bottom right corner of the image is a cluster of dark purple grapes. |
最后的回答:
The fruit in the bottom right corner of the image is a cluster of dark purple grapes.
Noting:在相同的问题下,QWen2-VL的答案是:右下角的水果是石榴。

image 2
Case3: 行列感知

image 3
问题:What is the second fruit in the first line?
思考过程:
|
Step |
Content |
|
Thinking Step 1: |
To find the second fruit in the first line, I need to analyze the image and determine the sequence of fruits. The first fruit in the first line is an apple. The second fruit should be the next in the sequence. Let's examine the options. |
|
Thinking Step 2: |
Upon examining the sequence of fruits in the image, I can see that the first fruit is an apple. The second fruit in the first line should logically follow the sequence. Let's consider the options available in the image. |
|
Thinking Step 3: |
After analyzing the sequence of fruits in the image, I can conclude that the second fruit in the first line is a strawberry. This is based on the logical progression of the sequence and the presence of the strawberry in the image. |
|
Final Answer |
The second fruit in the first line is a strawberry. |
最后的回答:
The second fruit in the first line is a strawberry.
纯文本场景
Case1: 字母计数(英文)

image 4
问题:How many 'R's are in the word strawberry?
思考过程:
|
Step |
Content |
|
Thinking Step 1: |
The problem is to count the number of 'R's in the word 'strawberry'. To solve this, I need to examine each letter in the word and determine if it is an 'R'. |
|
Thinking Step 2: |
Now, I will go through each letter in the word 'strawberry' and check if it is an 'R'. I will start with the first letter and continue until the end of the word. |
|
Thinking Step 3: |
I have now examined each letter in the word 'strawberry'. The letters are: s, t, r, a, w, b, r, r, b, r, r, y. Among these, the letters 'R' appear three times. |
|
Final Answer |
The word 'strawberry' contains three 'R's. |
最后的回答:
The word 'strawberry' contains three 'R's.
Noting:在相同的问题下,QWen2-VL的答案是:The word "strawberry" contains one 'R'.

image 5
Case2: 六年级数学题

image 6
问题:A tank of water, using 50% and 5 barrels, leaving 30%. How many barrels of water are in this tank?
思考过程:
|
Step |
Content |
|
Thinking Step 1: |
The problem involves a tank of water with a certain amount of water initially. The tank is filled with 50% of its capacity and then 5 barrels of water are added. After this addition, the tank is filled to 30% of its capacity. The task is to determine the total number of barrels of water in the tank. |
|
Thinking Step 2: |
Failed to generate step after 3 attempts. Error: JSON decode error : {"title": "Analyzing the Problem", "content": "Let's denote the total capacity of the tank as C barrels. Initially, the tank is filled with 50% of its capacity, which means it contains 0.5C barrels of water. Then, 5 barrels of water are added to the tank, increasing the amount of water to 0.5C + 5 barrels. After this addition, the tank is filled to 30% of its capacity, which means it contains 0.3C barrels of water. We can set up the equation 0.5C + 5 = |
|
Final Answer |
To find the total number of barrels of water in the tank, we can set up the equation 0.5C + 5 = 0.3C, where C represents the total capacity of the tank in barrels. Solving for C, we get C = 25 barrels. Therefore, the tank contains 25 barrels of water. |
最后的回答:
To find the total number of barrels of water in the tank, we can set up the equation 0.5C + 5 = 0.3C, where C represents the total capacity of the tank in barrels. Solving for C, we get C = 25 barrels. Therefore, the tank contains 25 barrels of water
Noting:在相同的问题下,QWen2-VL的答案是错误的:It is not possible to determine the total number of barrels of water in the tank based on the information provided. The statement "using 50% and 5 barrels, leaving 30%" does not provide enough information to determine the total number of barrels in the tank.

image 7
Case3: 一年级数学题(中文)

image 8
问题:小明折了9只纸飞机,比小军少折3只,小军折了几只纸飞机?
思考过程:
|
Step |
Content |
|
Thinking Step 1: |
小明折了9只纸飞机,比小军少折3只。这意味着小军折的纸飞机数量比小明多3只。为了找出小军折了多少只纸飞机,我们需要从小明折的纸飞机数量中加上这个差值。 |
|
Thinking Step 2: |
根据题目,小明折了9只纸飞机,比小军少折3只。这意味着小军折的纸飞机数量比小明多3只。因此,我们可以用小明折的纸飞机数量加上3只来计算小军折的纸飞机数量。所以,小军折了9 + 3 = 12只纸飞机。 |
|
Final Answer |
小军折了12只纸飞机。 |
最后的回答:
The word 'strawberry' contains three 'R's.
Case4: 一年级数学题(英文)

image 9
问题:There are 10 apples in the basket, one of which was eaten by Little Ding Ding and two by Dad. How many more are there now?
思考过程:
|
Step |
Content |
|
Thinking Step 1: |
There are 10 apples in the basket. One apple was eaten by Little Ding Ding and two apples were eaten by Dad. To find out how many apples are left, I need to subtract the apples eaten from the total number of apples. This involves basic arithmetic operations. |
|
Thinking Step 2: |
Little Ding Ding ate 1 apple and Dad ate 2 apples. To find out how many apples are left, I need to subtract the total number of apples eaten from the initial number of apples. This involves basic arithmetic operations. |
|
Thinking Step 3: |
To find out how many apples are left, I need to subtract the total number of apples eaten from the initial number of apples. This involves basic arithmetic operations. After subtracting, I will provide the final answer. |
|
Final Answer |
There are 7 apples left in the basket. |
最后的回答:
There are 7 apples left in the basket.
Case5: 三年级数学题(中文)

image 10
问题:商店有 4筐苹果,每筐 55 千克,已经卖出 135 千克,还剩多少千克苹果?
思考过程:
|
Step |
Content |
|
Thinking Step 1: |
首先,我们需要确定商店总共有多少千克苹果。由于有4筐苹果,每筐55千克,我们可以计算出总重量。然后,我们需要从总重量中减去已经卖出的135千克,以找出剩余的苹果重量。 |
|
Thinking Step 2: |
To find out how many kilograms of apples are left, we need to subtract the amount sold from the total amount available. The total amount available is 4 baskets * 55 kilograms/basket = 220 kilograms. After selling 135 kilograms, the remaining amount is 220 kilograms - 135 kilograms = 85 kilograms. |
|
Final Answer |
There are 85 kilograms of apples left. |
最后的回答:
There are 85 kilograms of apples left.
实现思路
我们参考了 G1 和 O1 项目的方法,通过在提示(prompt)设计上促进模型的推理链(Chain of Thought, CoT)过程。具体步骤如下:
- 问题分析:提示模型首先对问题进行详细分析。
- JSON格式响应:模型被要求以 JSON 格式响应,包含以下键值:
-
title: 分析步骤的标题。 -
content: 分析的具体内容。 -
next_action: 接下来的操作,值为 continue 或 **final_answer**。
如果 next_action 为 **continue**,模型将继续思考并提供下一步的分析;如果为 **final_answer**,则输出最终答案。
(完整的提示设计和具体实现细节请参见代码)
https://github.com/win4r/o1
https://github.com/bklieger-groq/g1
...
#一条不同于 OpenAI 的 AGI 路线
与其造神,不如依靠群体的力量:这家公司走出了一条不同于OpenAI的AGI路线
看过剧版《三体》的读者或许都记得一个名场面:来自三体的智子封锁了人类科技,还向地球人发出了「你们是虫子」的宣告。但没有超能力的普通人史强却在蝗群漫天飞舞的麦田中喊出:「把我们人类看成是虫子的三体人,他们似乎忘了一个事实,那就是虫子从来就没有被真正地战胜过」。
三体人看到的是单个虫子脆弱的一面 —— 你可以轻松踩死一只蚂蚁,打死一只蝗虫、蜜蜂。但他们没有看到的是,当这些虫子集结在一起时,它们可以涌现出远超个体简单相加的力量。
科学家们很早就发现了这种力量,并将其命名为「群体智能」(Swarm Intelligence)。这种智能不是由某个中央大脑控制,而是通过个体间的简单互动和信息交换自然形成的。它是一种集体智慧的体现,是自然界中一种奇妙而高效的协作方式。
其实,从宏观上说,人类社会的不断发展和演化也是一种群体智能现象,绝大多数文明成果都是人类个体在长期群体化、社会化的生产生活中逐渐演化形成的产物。
那么,人工智能的发展能否借鉴这种模式?答案自然是「能」。但长期以来,由于机器的个体智能化程度较低等原因,「群体智能」迟迟难以涌现。
生成式 AI 的发展或许可以推动这些问题的解决,也让「群体智能」获得了新一轮的关注。
「这波生成式 AI 相当于把个体的智能化水平提升上去了。而个体智能的提升,意味着群体的智能有望实现指数级增长。」在近期的一次访谈中,RockAI CEO 刘凡平向xx表达了这样的观点。
RockAI 是一家成立于 2023 年 6 月的 AI 初创,他们自研了国内首个非 Attention 机制的 Yan 架构通用大模型,并将这个大模型部署在了手机、PC、无人机、机器人等多种端侧设备上,还尝试让自己的大模型在这些设备上实现「自主学习」能力。whaosoft开发板商城测试设备
而这一切均服务于一个宏大的目标 —— 让每一台设备都拥有自己的智能,而且是可以像人类一样实时学习、个性化自主进化的系统。刘凡平认为,当这些拥有不同能力、不同个性的智能单元得以协同,即可完成数据共享、任务分配和策略协调,涌现出更为宏大、多元的群体智能,最终实现个性化与群体智能的和谐统一,开启人与机器的智能新时代。
那这一切怎么去实现呢?在访谈中,刘凡平和邹佳思(RockAI 联合创始人)向xx分享了他们的路线图和最新进展。
一条不同于 OpenAI 的 AGI 路线
前面提到,「群体智能」的研究进展受限于单个个体的智能化程度,所以研究者们首先要解决的问题就是让单个个体变得足够聪明。
要说「聪明」,OpenAI 的模型可以说是出类拔萃。但从目前的情况来看,他们似乎更侧重于训练出拥有超级智能的单个大模型。而且,这条路线走起来并不容易,因为它高度依赖海量的数据和计算资源,这在能源、数据和成本上都带来了可持续性的问题。
此外,通过一个超级智能模型来处理所有任务是一种高度中心化的模式,这在实践中容易出现智能增长的瓶颈,因为单一模型缺乏灵活的适应能力和协作效应,导致其智能提升速度受到限制。whao开发板商城测试设备
那么,OpenAI 未来有没有可能也走群体智能的路线?这个问题目前还没有明确答案。但可以看到的一点是,以该公司和其他大部分公司当前采用的 Transformer 架构去构建群体智能的单个个体可能会遇到一些障碍。
首先是高算力需求的障碍。以 Attention 机制为基础的 Transformer 架构对计算资源的需求非常高,其计算复杂度为 O (n^2)(n 为序列长度)。这意味着随着输入序列的增长,计算成本急剧增加。在构建群体智能时,我们需要多个单元大模型协同工作,而这些单元大模型往往部署在低算力的设备上(如无人机、手机、机器人等)。如果不经过量化、裁剪等操作,Transformer 架构的模型很难在低算力设备上直接部署。所以我们看到,很多公司都是通过这些操作让模型成功在端侧跑起来。
但对于群体智能来说,光让模型跑起来还不够,还要让它们具备自主学习的能力。在刘凡平看来,这一点至关重要。
他解释说,在一个没有自主学习的群体中,最聪明的个体会主导其他智能体的决策,其他智能体只能跟随它的指引。这种情况下,群体智能的上限就是最聪明个体的水平,无法超越。但通过自主学习,每个智能体都可以独立提升自身的智能水平,并逐渐接近最聪明的个体。而且,自主学习促进了知识共享,类似于人类的知识传承。这样,群体中的所有智能体都会变得更聪明,群体整体的智能水平有望实现指数级增长,远远超出简单的个体累加。
而量化、裁剪等操作最致命的问题,就是破坏了模型的这种自主学习能力。「当一个模型被压缩、量化、裁剪之后,这个模型就不再具备再学习的能力了,因为它的权重已经发生了变化,这种变化基本是不可逆的。这就像我们把一个螺丝钉钉入墙中,如果在敲入的过程中螺丝钉受到损坏,那么想要把它取出来重新使用就变得很困难,让它变得更锋利就变得不可能。」刘凡平解释说。
讲到这里,实现群体智能的路线其实就已经非常清晰了:
- 首先,你要在架构层面做出改变,研发出一种可以克服 Transformer 缺陷的新架构。
- 然后,你要将基于这个架构的模型部署到各种端侧设备上,让模型和这些设备高度适配。
- 接下来,更重要的一点是,这个架构的模型要能够在各种端侧设备上自主学习,不断进化。
- 最后,这些模型与端侧设备结合成的智能体要能够自主协作,共同完成任务。
这其中的每个阶段都不简单:
- 在第一阶段,新架构不止要具备低算力、部署到端侧原生无损的特点,还要具备可以媲美 Transformer 架构的性能,保证单个个体足够聪明且可以自主学习。
- 在第二阶段,「大脑和身体」的高度适配涉及感知层面和数据处理的不同模态,每种设备有着不同的需求,这增加了模型和设备适配的复杂性。
- 在第三阶段,让模型部署之后还可以学习就意味着要挑战现有的训练、推理完全分离的机制,让模型参数在端侧也可以调整,且调整足够快、代价足够小。这就涉及到对传统反向传播机制的挑战,需要的创新非常底层。
- 在第四阶段,主要挑战是如何实现智能体之间的有效协作。这个过程要求智能体自主发现并形成完成任务的最佳方案,而不是依赖于人为设定或程序预设的方案。智能体需要根据自己的智能水平来决定协作的方式。
这些难点就决定了,RockAI 必须走一条不同于 OpenAI 的路线,挑战一些传统的已经成为「共识」的方法。
刘凡平提到,在前两个阶段,他们已经做出了一些成果,针对第三、四个阶段也有了一些实验和构想。

群体智能的单元大模型 ——Yan 1.3
第一阶段的标志性进展是一个采用 Yan 架构(而非 Transformer 架构或其变体)的大模型。这个模型的 1.0 版本发布于今年的 1 月份,为非 Attention 机制的通用自然语言大模型。据了解,该模型有相较于同等参数 Transformer 的 7 倍训练效率、5 倍推理吞吐和 3 倍记忆能力。而且,这一模型 100% 支持私有化部署应用,不经裁剪和压缩即可在主流消费级 CPU 等端侧设备上无损运行。
经过半年多的攻关,这一模型刚刚迎来了最新版本 ——Yan 1.3。
Yan 1.3 是一个 3B 参数的多模态模型,能够处理文本、语音、视觉等多种输入,并输出文本和语音,实现了多模态的模拟人类交互。

尽管参数量较小,但其效果已超越 Llama 3 8B 的模型。而且,它所用的训练语料比 Llama 3 要少,训练、推理算力也比 Llama 3 低很多。这在众多非 Transformer 架构的模型中是一个非常领先的成绩,其训练、推理的低成本也让它比其他架构更加贴近工业化和商业化。

这些出色的性能得益于高效的架构设计和算法创新。
在架构层面,RockAI 用一个名叫 MCSD(multi-channel slope and decay)的模块替换了 Transformer 中的 Attention 机制,同时保留 Attention 机制中 token 之间的关联性。在信息传递过程中,MCSD 强调了有效信息的传递,确保只有最重要的信息被传递给后续步骤,而且是以 O (n) 的复杂度往下传,这样可以提高整体效率。在验证特征有效性和 token 之间的关联性方面,MCSD 表现优秀。

在算法层面,RockAI 提出了一种类脑激活机制。这是一种分区激活的机制,就像人开车和写字会分别激活脑部的视觉区域和阅读区域一样,Yan 1.3 会根据学习的类型和知识范围来自适应调整部分神经元,而不是让全量的参数参与训练。推理时也是如此。具体有哪些神经元来参与运算是由仿生神经元驱动的算法来决定的。
在今年的 GTC 大会上,Transformer 论文作者之一 Illia Polosukhin 提到,像 2+2 这样的简单问题可能会使用大模型的万亿参数资源。他认为自适应计算是接下来必须出现的事情之一,我们需要知道在特定问题上应该花费多少计算资源。RcokAI 的类脑激活机制是自适应计算的一种实现思路。
这或许听起来和 MoE 有点像。但刘凡平解释说,类脑激活机制和 MoE 有着本质的区别。MoE 是通过「专家」投票来决定任务分配,每个「专家」的网络结构都是固定的,其结果是可预测的。而类脑激活机制没有「专家」,也没有「专家」投票的过程,取而代之的是神经元的选择过程。其中的每个神经元都是有价值的,选择的过程也是一个自学习的过程。
这种分区激活机制在 MCSD 的基础上进一步降低了 Yan 架构模型的训练、推理计算复杂度和计算量。
「这也符合人类大脑的运行方式。人脑的功耗只有二十几瓦,如果全部的 860 亿个神经元每次都参与运算,大脑产生的生物电信号肯定是不够用的。」刘凡平说道。目前,他们的类脑激活机制已经得到了脑科学团队的理论支持和实际论证,也申请到了相关专利。
以端侧设备为载体,迈向群体智能
在 Yan 1.3 的发布现场,我们看到了该模型在 PC、手机、机器人、无人机等端侧设备的部署情况。鉴于 Yan 1.2 发布时甚至能在树莓派上运行,这样的端侧部署进展并不令我们感到意外。
,时长01:35
部署了 Yan 1.3 的无人机。无人机内置硬件为 Jetson Orin NX + 5G 模组。
那么,为什么一定要把模型部署在端侧呢?云端的模型不行吗?邹佳思提到,这是因为模型要跟机器本体做高度适配。以机器人为例,设备的很多参数是难以与云端大模型融合。端侧大模型更容易让机器人肢体协调、大小脑协同工作。
,时长01:48
部署了 Yan 1.3 的机器人。机器人内置硬件为 Intel Core i3。
而且我们知道,这些端侧智能体的潜力才刚刚显露。毕竟,以上创新的目标不只是让模型能够在端侧跑起来(当前很多模型都能做到这一点),而是使其具备自主学习的能力,作为「群体智能的单元大模型」持续进化。无论是 Yan 架构的「0 压缩、0 裁剪」无损部署,还是分区激活的高效计算,都是服务于这一目标。这是 RockAI 和其他专注于端侧 AI 的公司的一个本质区别。
「如果我们拿一个 10 岁的孩子和一个 30 岁的博士来比,那肯定 30 岁的博士知识面更广。但是,我们不能说这个 10 岁的孩子在未来无法达到甚至超越这位博士的成就。因为如果这个 10 岁的孩子自我学习能力足够高,他的未来成长速度可能比 30 岁的博士还要快。所以我们认为,自主学习能力才是衡量一个模型智能化程度的重要标志。」刘凡平说道。可以说,这种自主学习能力才是 RockAI 追求的「scaling law」。
为了实现这种自主学习能力,RockAI 的团队提出了一种「训推同步」机制,即让模型可以在推理的同时,实时有效且持续性地进行知识更新和学习,最终建立自己独有的知识体系。这种「训推同步」的运行方式类似于人类在说话的同时还能倾听并将其内化为自己的知识,对底层技术的要求非常高。
为此,RockAI 的团队正在寻找反向传播的更优解,方法也已经有了一些原型,并且在世界人工智能大会上进行过展示。不过,他们的方法原型目前仍面临一些挑战,比如延迟。在后续 Yan 2.0 的发布中,我们有望见到原型升级版的演示。
那么,在每一台设备都拥有了智能后,它们之间要怎么联结、交互,从而涌现出群体智能?对此,刘凡平已经有了一些初步构想。
首先,它们会组成一个去中心化的动态系统。在系统中,每台设备都拥有自主学习和决策的能力,而不需要依赖一个中央智能来控制全局。同时,它们之间又可以共享局部数据或经验,并通过快速的通信网络互相传递信息,从而在需要时发起合作,并利用其他智能体的知识和资源来提升任务完成的效率。
路线「小众」,挑战与机遇并存
纵观国内 AI 领域,RockAI 走的路可以说非常「小众」,因为里面涉及到非常底层的创新。在硅谷,有不少人在做类似的底层研究,就连「神经网络之父」Hinton 也对反向传播的一些限制表示过担忧,特别是它与大脑的生物学机制不符。不过,大家目前都还没有找到特别有效的方法,因此这一方向还没有出现明显的技术代差。对于 RockAI 这样的国内企业来说,这既是挑战,也是机遇。
对于群体智能,刘凡平相信,这是一条迈向更广泛的通用人工智能的路线,因为它的理论基础是非常坚实的,「如果没有群体智能,就没有人类社会的文明,更不会有科技的发展」。
而且,刘凡平认为,群体智能所能带来的生产力变革比拥有超级智能的单个大模型所能带来的更全面、更多样。随着自主架构大模型的研发成功和多元化硬件生态的构建,他们相信自己正在逐渐接近这一目标。
我们也期待看到这家公司的后续进展。
参考链接:
https://news.sciencenet.cn/sbhtmlnews/2023/2/373354.shtm
http://lib.ia.ac.cn/news/newsdetail/68393
https://www.shxwcb.com/1205619.html
https://mp.weixin.qq.com/s/t6TurjgHHxmC2D--c9-fcg
...
#谷歌自动芯片设计AlphaChip问世
Layout工程师危,谷歌自动芯片设计AlphaChip问世,开放权重可外部定制
2020 年,谷歌发表了预印本论文《Chip Placement with Deep Reinforcement Learning》,介绍了其设计芯片布局的新型强化学习方法。后来在 2021 年,谷歌又发表在 Nature 上并开源了出来。
今天,谷歌发表了这篇 Nature 文章的附录,更详细介绍了该方法及其对芯片设计领域的影响。同时,谷歌也开放了一个在 20 个 TPU 模块上预训练的检查点,分享模型权重并命名为「AlphaChip」。
- Nature 附录地址:https://www.nature.com/articles/s41586-024-08032-5
- 预训练检查点地址:https://github.com/google-research/circuit_training/?tab=readme-ov-file#PreTrainedModelCheckpoint
谷歌首席科学家 Jeff Dean 表示,开放预训练 AlphaChip 模型检查点以后,外部用户可以更容易地使用 AlphaChip 来启动自己的芯片设计。
x@JeffDean
计算机芯片推动了 AI 的显著进步,AlphaChip 利用 AI 来加速和优化芯片设计。该方法已被用于设计谷歌自定义 AI 加速器(TPU)最近三代的「超人」芯片布局。
作为首批用于解决现实世界工程问题的强化学习方法,AlphaChip 只需要数小时便能完成媲美或者超越人类的芯片布局,而无需再花费数周或数月人工努力。并且该方法设计的布局已应用于世界各地的芯片,覆盖场景包括数据中心到手机。
谷歌 DeepMind 表示,AlphaChip 已经彻底改变了我们设计微芯片的方式,从帮助设计用于构建 AI 模型的 SOTA TPU 到数据中心 CPU,它的广泛影响已经扩展到了 Alphabet 内外。
谷歌 DeepMind 联合创始人兼 CEO Demis Hassabis 表示,如今我们形成了这样一种反馈回路:训练 SOTA 芯片设计模型(AlphaChip)→使用 AlphaChip 来设计更好的 AI 芯片→使用这些 AI 芯片来训练更好的模型→再设计更好的芯片,这正是谷歌 TPU 堆栈表现如此好的部分原因。
各路网友对谷歌的 AlphaChip 寄予厚望,称「芯片设计芯片的时代来了」,还预言谷歌将赢得未来 AGI 之争。
AlphaChip 是如何工作的?
芯片设计并非易事,部分原因在于计算机芯片由许多相互连接的块组成,这些块具有多层电路元件,所有元件都通过极细的导线连接。此外,芯片还有很多复杂且相互交织的设计约束,设计时必须同时满足所有约束。由于这些复杂性,芯片设计师们在 60 多年来一直在努力实现芯片布局规划过程的自动化。
与 AlphaGo 和 AlphaZero 类似,谷歌构建了 AlphaChip,将芯片布局规划视为一种博弈。
AlphaChip 从空白网格开始,一次放置一个电路元件,直到完成所有元件的放置。然后根据最终布局的质量给予奖励。谷歌提出了一种新颖的「基于边」的图神经网络使 AlphaChip 能够学习互连芯片元件之间的关系,并在整个芯片中进行推广,让 AlphaChip 在其设计的每一个布局中不断进步。
,时长00:23
左图:动画展示了 AlphaChip 在没有任何经验的情况下放置开源处理器 Ariane RISC-V CPU。右图:动画展示 AlphaChip 在对 20 个 TPU 相关设计进行练习后放置相同的块。
谷歌借助 AI 设计 AI 加速器芯片
自 2020 年发布以来,谷歌已经采用 AlphaChip 为每一代 Google TPU 生成超级芯片布局。这些芯片使得大规模扩展基于 Google Transformer 架构的 AI 模型成为可能。
TPU 作为谷歌强大的生成式 AI 系统的核心,应用范围从大语言模型(如 Gemini)到图像和视频生成器(Imagen 和 Veo)。这些 TPU 是 Google AI 服务的核心,可通过 Google Cloud 供外部用户使用。
谷歌数据中心存放的基于 Cloud TPU v5p 的超级计算机。
为了设计 TPU 布局,AlphaChip 首先在前几代的各种芯片块上进行练习,例如片上和芯片间网络块、内存控制器和数据传输缓冲区。这个过程称为预训练。然后谷歌在当前的 TPU 块上运行 AlphaChip 以生成高质量的布局。与之前的方法不同,AlphaChip 解决了更多芯片布局任务实例,因此变得更好、更快,就像人类专家所做的那样。
随着每一代新 TPU(包括谷歌最新的 Trillium(第 6 代))的推出,AlphaChip 设计出了更好的芯片布局并提供了更多的整体平面图,从而加快了设计周期并产生了性能更高的芯片。

图中显示了 Google 三代张量处理单元 (TPU)(包括 v5e、v5p 和 Trillium)中 AlphaChip 设计的芯片块的数量。

图中显示了 AlphaChip 在三代 Google 张量处理单元 (TPU) 中的平均线长(wirelength)减少量,并与 TPU 物理设计团队生成的位置进行了比较。
AlphaChip 带来的更广泛影响
AlphaChip 的影响力体现在 Alphabet、研究界和芯片设计行业的应用上。除了设计 TPU 等专用 AI 加速器外,AlphaChip 还为 Alphabet 的其他芯片设计布局,例如 Google Axion 处理器,这是谷歌首款基于 Arm 的通用数据中心 CPU。
外部组织也在采用和构建 AlphaChip。例如,全球顶级芯片设计公司之一联发科扩展了 AlphaChip,以加速其最先进芯片(如三星手机使用的 Dimensity Flagship 5G)的开发,同时提高了功耗、性能和芯片面积。
AlphaChip 引发了芯片设计 AI 工作的爆炸式增长,并已扩展到芯片设计的其他关键阶段,例如逻辑综合和宏选择。
开创芯片新未来
谷歌坚信,AlphaChip 有潜力优化从计算架构到制造的芯片设计周期的每个阶段,并改变智能手机、医疗设备、农业传感器等日常设备中定制硬件的芯片设计。
目前,AlphaChip 的未来版本正在开发中。谷歌期待与社区合作,继续变革自动芯片设计领域,从而在未来迎来速度更快、价格更低、能效更高的芯片。
参考链接:https://deepmind.google/discover/blog/how-alphachip-transformed-computer-chip-design/
...
#英伟达RTX 5090
英伟达RTX 5090功耗高达600W,32G显存,核心比5080多一倍
RTX 50 系列的发布日期可能会在明年初。
英伟达的 RTX 50 系列会整出什么新活?
随着芯片发布日期的临近,人们的猜测也越来越密集起来。最近,海外知名爆料者 Kopite7kimi 放出了 GeForce RTX 5080 和 GeForce RTX 5090 显卡的初步规格信息,让我们对新 GPU 有了一些初步的概念。
如果消息正确,那么英伟达即将推出的 GeForce RTX 5090 将是一款拥有 600W 额定功率(TGP)的怪物。这些规格中的许多与之前的曝光内容一致,不过也有一些新的消息。
根据最新消息,用于台式电脑的旗舰 Blackwell 架构 GPU RTX 5090 预计将基于 GB202 图形处理器,配备 21760 个 CUDA 核心,使用 512 位接口与 32GB GDDR7 内存组合。如果消息准确,如此多的 FP32 核心将有大量功耗 —— 高达 600W(比 RTX 4090 高出 150W)。即使最终规格最终略逊一筹,这款显卡在发布时肯定会跻身 GPU 性能金字塔顶端。只是不要问价格……
相比之下,由 GB203 GPU 驱动的 RTX 5080 性能就要差上很多,据说它将配备 10752 个 CUDA 核心,大约是顶级产品的一半。RTX 5080 显卡预计将配备 16GB GDDR7 显存和 256 位接口,TGP 额定功率为 400W(RTX 4080 是 320W)。借助 GDDR7 带来的可观带宽提升,RTX 5080 在高分辨率下的表现应该会远超其前代产品,也会是一款强大的显卡。
Nvidia GeForce RTX 5000 系列显卡的初步规格:

虽然 GeForce RTX 5090 潜在的巨大性能确实引起了人们的关注,但另一件引人注目的事情是旗舰 RTX 5090 与 RTX 5080 之间的巨大性能差距。就流处理器和内存接口的数量而言,80 的规格几乎是 90 的一半。TGP 将是顶级卡的三分之二,因此 5080 时钟频率可能会更高以试图缩小与 5090 的差距,这代表着比 40 系列 GPU 型号之间更大的差异。
这种性能差异看起来很奇怪,可能表明英伟达希望尝试创造新的性能分层,或者限制某些消费卡作为人工智能计算替代品的吸引力。
纸面数据上,RTX 4090 比 RTX 4080 提供多 68% 的 GPU 核心、多 50% 的 VRAM、多 41% 的内存带宽以及多 13% 的 L2 缓存,CPU 的限制使 4090 性能无法倍杀,但在 4K 时 ultra 画面的任务上它最终会比第二级 40 系列 GPU 快了约 35%,而 RTX 3090 仅比 RTX 3080 快了约 15%。
而如果现在这些规格正确的话,RTX 5090 的性能可能高达 4080 的两倍。
虽然不能确定英伟达为什么决定以这种方式构建其下一代产品线,但可能的技术解释之一是英伟达的 GB202 处理器可能由两个 GB203 芯片组成。Blackwell GPU 使用多芯片设计的传闻已经有一段时间了,GB100/GB200 等数据中心 GPU 确实采用了这种架构。然而,使用 CoWoS-L 封装来实现消费级芯片之间的高速(~10 TB/s)互连似乎是一个非常昂贵的想法。
构建多芯片 GPU 的另一种方法是采用台积电 4 纳米级工艺技术构建具有超过 21760 个 CUDA 核心的单片图形处理器,这将产生约 650 mm^2 的芯片。
由于芯片尺寸较大,这种设计很难生产,这就是为什么通常会出现冗余的原因 —— 例如,4090 的 AD102 芯片最多有 144 个流多处理器 (SM),但仅启用了 128 个。因此,如果英伟达愿意的话,走这条路也不是不可能的。然而,单片芯片也非常昂贵,而且 RTX 5080 和 RTX 5090 之间存在如此巨大的差距会很奇怪。不过,其他 GPU 可以尝试填补这些漏洞,我们最终可能会看到后续型号可能有大约 18000 个可用的 CUDA 核心。
我们所能知道的是,英伟达在各种产品中使用相同的芯片:不论是台式机、笔记本还是专业和数据中心 GPU 都基于相同的硅片设计。
由于 AI 产业目前如此火热,英伟达很大程度上已将精力转为主攻数据中心产品,然后以其作为基础,面向消费者产品进行改款。如果是这样的话,如果 RTX 5090 最终定价比已经很贵的 4090 高出不少,你也不要感到惊讶 —— 我们甚至可能会看到 AI 专用变体在消费者型号之前问世。
目前,我们掌握的 Blackwell 架构 PC 显卡的所有信息都是非官方的。在英伟达直接发表任何言论之前,事情可能会发生变化。关于发布日期也存在相互矛盾的谣言,有人说 RTX 50 系列要到 2025 年初才会上市。如果这种说法正确的话,这将为在发布前继续调整配置提供充足的时间。
参考内容:
#SubgoalXL
形式化定理证明新突破:框架让大模型在Isabelle中性能暴涨
本文第一作者为香港大学博士研究生赵学亮,主要研究方向为形式化数学定理证明,检索增强生成以及多模态推理。该工作由香港大学与 AI 芯片公司 SambaNova Systems 共同完成。
背景介绍:形式化定理证明的新挑战
大语言模型(LLMs)在形式化定理证明中正面临两个核心挑战:
1. 形式化证明数据的稀缺性:当前数据集有限,难以支持模型在专门的数学和定理证明任务中的高效学习。
2. 多步骤推理的复杂性:形式化定理证明要求模型在多个步骤中保持逻辑严谨性,以生成正确的数学证明。
在这种背景下,研究团队提出了一个全新的框架:SubgoalXL,结合了子目标(subgoal)证明策略与专家学习(expert learning)方法,在 Isabelle 中实现了形式化定理证明的性能突破。
- 论文链接:https://www.arxiv.org/abs/2408.11172
- 项目地址:https://github.com/zhaoxlpku/SubgoalXL
SubgoalXL 如何应对挑战?
SubgoalXL 通过以下两种关键策略来应对形式化定理证明中的挑战:
1. 子目标证明策略:将证明过程分解为多个子目标,这些子目标构成了解决复杂推理任务的关键步骤。通过这种分解,SubgoalXL 在更接近形式化证明的逻辑框架下进行推理,使得生成的证明过程更加清晰有序。子目标证明策略有效地缓解了因非形式化与形式化证明之间的不一致性导致的学习瓶颈,增强了模型在形式化环境中的表现。
2. 专家学习框架:通过一个由形式化陈述生成器、子目标生成器和形式化证明生成器组成的迭代优化框架,SubgoalXL 能够在每个迭代过程中从经验数据中学习,调整各个组件的参数,使得模型在多步骤推理中的准确性和有效性不断提升。该框架利用概率建模和梯度估计技术,确保在每个迭代中从最优分布中采样数据,最大化模型的学习效率和推理能力。
方法概述
SubgoalXL 的方法核心在于子目标证明策略和专家学习框架的结合。
子目标证明策略 (图一左):我们首先手动创建了一组用于上下文学习的演示示例,然后使用这些示例指导模型生成子目标证明训练数据。具体来说,我们从 miniF2F-valid 中选择了部分问题,并手动构建了每个问题的已验证形式化证明,作为初始输入。通过 GPT-4o 生成子目标证明,该过程确保了:1) 子目标证明由自回归模型生成;2) 生成的证明风格一致,降低了模型的学习负担;3) 每个子目标与 Isabelle 中的形式化中间目标相对应。这种方法保证了非形式化证明与形式化证明之间的更高一致性,有效提升了形式化定理证明的质量。
专家学习框架 (图一右):该框架由三个核心模块组成:
- 形式化陈述生成器(Formal Statement Generator):生成与非形式化陈述相对应的形式化陈述。
- 子目标生成器(Subgoal Generator):根据非形式化和形式化陈述,生成与形式化证明结构相匹配的子目标序列。
- 形式化证明生成器(Formal Proof Generator):在给定的子目标序列下,生成完整的形式化证明。
在每个迭代过程中,SubgoalXL 根据先前生成的陈述和证明样本进行参数优化。专家学习框架使用概率建模和梯度估计技术,对各模块进行迭代优化,以从最佳分布中采样数据。这种方法确保了模型在处理新的证明任务时能够保持高精度和稳健性。

图 1:左:非形式化陈述、非形式化证明、形式化陈述、形式化证明和子目标证明的示例。右:基于子目标的专家学习框架概览。缩写:“Stat.” 表示 “陈述”,“F.” 表示 “形式化”,“P.” 表示 “后验”。每次迭代从最优分布中采样子目标证明、形式化陈述和形式化证明。
实验结果
我们在标准 miniF2F 数据集上对 SubgoalXL 进行了全面的评估,结果表明其在 Isabelle 环境下达到了新的最优性能:
主实验结果:SubgoalXL 在 miniF2F-valid 数据集上的通过率达到了 61.9%,在 miniF2F-test 数据集上达到了 56.1%。这一表现超过了多种现有的基线方法,包括 Thor、DSP、Subgoal-Prover、LEGO-Prover 以及 Lyra 等,展示了显著的性能提升(见表 1)。

表 1:miniF2F 数据集上的性能。标记为†的方法在证明搜索过程中部分或全部使用了人工编写的非形式化证明。加粗数字表示获得的最高性能。
迭代提升分析:在逐步迭代的过程中,SubgoalXL 表现出明显的性能增长。模型在 miniF2F-valid 数据集上的通过率从初始的 58.2% 逐步提升至 61.9%,在 miniF2F-test 数据集上从 51.2% 提升至 56.1%。这些结果表明,通过逐步优化和专家学习框架的迭代,模型在每次迭代中都能实现稳定的性能提升。

图 2:miniF2F 数据集中不同迭代次数下的通过率比较。
子目标证明对比分析:实验显示,SubgoalXL 使用的子目标证明方法在处理复杂证明任务时表现优于人类编写的非形式化证明。尤其在复杂问题上,子目标证明策略显著提高了证明的精确性和可靠性(见图 3)。

图 3:子目标证明与非形式化证明的案例对比。左侧示例为子目标证明的成功尝试,右侧两个示例为非形式化证明的失败尝试。
结论与未来展望
SubgoalXL 的成功展示了大语言模型在形式化定理证明任务中的巨大潜力,并为未来研究指明了方向。我们相信,通过进一步优化框架、拓展数据集和应用场景,大语言模型将在数学和科学领域带来更深远的影响。
...
更多推荐



所有评论(0)