模型—202602-面壁小钢炮全模态MiniCPM-o 4.5解读

MiniCPM-o 4.5 代表了端侧全模态 AI 的重要突破，通过创新的全双工架构，在极小参数规模下实现了对顶级闭源模型的性能超越，同时保持了极高的推理效率，为"Her"式实时 AI 交互提供了开源解决方案。

Gao Allen

504人浏览 · 2026-02-05 14:20:49

Gao Allen · 2026-02-05 14:20:49 发布

1. 模型主要解决方向

文章指出，当前绝大多数 AI 对话系统采用单工模式运行，存在明显的交互缺陷：

“间歇性失明失聪”：AI 在生成回答时无法同时感知环境，导致交互机械、缺乏"人味儿"
无法实时多模态感知：现有模型只能将视觉、语音作为静态输入处理，不能在输出时持续观察外界变化
交互体验像对讲机：一次只能单向传递信息，无法实现自然流畅的双向实时对话

2. 主要功能特征

面壁智能提出了 MiniCPM-o 4.5 —— 行业首个全双工全模态大模型（Full-Duplex Omni-Modal Model）。

该方案的核心突破是：

边看边听边说：模型能够在说话的同时持续接收视觉和音频输入
自主交互能力：不再依赖"你一句我一句"的轮询模式，实现真正的实时多模态信息流处理
开源开放：已在 GitHub 和 Hugging Face 平台完全开源

3. 核心的方法/策略

策略维度	具体方法
架构设计	全模态统一建模，支持文本、图像、音频、视频的端到端处理
流式处理	实现输入输出的并行处理，打破传统的"先输入后输出"串行模式
效率优化	极致能效比设计，支持 BF16 和 INT4 量化，降低显存占用和推理延迟
端到端训练	原生支持语音理解和生成、声音克隆等多模态能力，无需级联多个独立模型

4. 实例及实验细节

所用模型：

MiniCPM-o 4.5（9B 参数）
对比模型：Gemini 2.5 Flash、Qwen3-Omni-30B-A3B-Instruct（35B）、Qwen3-VL-8B-Instruct、CosyVoice2 等

评测基准与实验结果：

任务类别	具体基准	MiniCPM-o 4.5 表现	对比结果
综合评测	OpenCompass	77.6 分	接近 Gemini 2.5 Flash (78.5)，优于 Qwen3-Omni (75.7)
视觉理解	MMBench EN/CN	87.6 / 87.2	超越 Gemini 2.5 Flash (86.6/86.0)
数学推理	MathVista	80.1	超越 Gemini 2.5 Flash (75.3)
文档解析	OmniDocBench (EN/CN)	0.109 / 0.162	显著优于 Gemini (0.214/0.290)
幻觉评测	HallusionBench	63.2	优于 Gemini (59.1)
全模态直播	Daily-Omni	80.2	优于 Gemini (79.3)
语音生成	SeedTTS test-zh CER	0.9	显著优于 Qwen3-Omni (1.4)
长文本语音	LongTTS-en WER	3.4	大幅优于 Qwen3-Omni (17.3)

推理效率实测（NVIDIA RTX 4090）：

解码速度：INT4 量化下达 212.3 tokens/s，远超 Qwen3-Omni 的 147.8 tokens/s
首响时间：0.58 秒，快于 Qwen3-Omni 的 0.98 秒
显存占用：INT4 仅需 11.0 GB，而 Qwen3-Omni 需 20.3 GB（BF16 下 Qwen3-Omni 甚至 OOM）

5. 结论

小模型也能有大能力：仅 9B 参数的 MiniCPM-o 4.5 在多项关键任务上击败顶级闭源模型（如 Gemini 2.5 Flash），证明了"能力密度"（Capability Density）的重要性
全双工交互是下一代 AI 的标配：实时、并行、持续感知的多模态交互将取代传统的轮询式对话
开源模型已具备 SOTA 竞争力：在视觉理解、文档解析、语音生成等细分领域，开源小模型已实现对闭源大模型的超越
效率与性能可以兼得：通过架构优化和量化技术，小模型能在保持高性能的同时实现低延迟、低显存占用

6. 注意事项

限制类型	具体说明
硬件要求	虽然优化了效率，但仍需 NVIDIA RTX 4090 或同等算力设备才能流畅运行
量化依赖	要达到最佳效率（11GB 显存），必须使用 INT4 量化，可能对精度有轻微影响
模型规模	9B 参数在处理极复杂任务时可能仍不及 30B+ 的大模型（如 Qwen3-Omni 在某些任务上仍有优势）
评测基准局限	部分对比基于官方权重/API 本地评测，实际使用体验可能因部署环境而异
全双工场景	文章主要强调技术能力，实际落地时的网络延迟、音频质量等工程因素未详细讨论

总结：MiniCPM-o 4.5 代表了端侧全模态 AI 的重要突破，通过创新的全双工架构，在极小参数规模下实现了对顶级闭源模型的性能超越，同时保持了极高的推理效率，为"Her"式实时 AI 交互提供了开源解决方案。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

在 AlphaAvatar 中接入 MCP：统一工具入口 + 并行调度的工程实践

2048 AI社区

多源异构大数据融合挖掘技术

多源异构大数据融合挖掘是大数据时代的核心竞争力——它将分散的“数据碎片”拼成完整的“价值拼图”，并从中挖掘出能驱动业务的“宝藏”。本文从原理到实践，讲解了融合的全流程（接入→清洗→融合→存储）和挖掘的关键方法（关联规则→分类→聚类→深度学习→图挖掘），并通过电商案例展示了落地路径。未来，随着隐私计算、湖仓一体、多模态大模型的发展，多源异构挖掘将更高效、智能、隐私。作为技术从业者，我们需不断学习新技

2048 AI社区

Ep.09 终章：技术的复利与独立开发者的变现之道

写代码是一件很公平的事情：你今天写下的自动化脚本，只要目标网站不改版，明天它依然在为你工作。慢慢地，你会积累起一套属于自己的工具箱：稳定好用的curl_cffi模板、完善的 MongoDB 写入类、一套百搭的 Dockerfile。这些就是你的数字资产。随着资产的增加，你启动下一个新项目的成本会越来越低，速度会越来越快。我们深入钻研底层协议，死磕各种反人类的混淆代码，终极目标不就是为了让机器多干活