【摘要】Meta 斥资数十亿美元收购 Manus 背后,是一整套围绕通用 Agent、云端虚拟机、多模型编排与环境工程的反常识架构选择。文章系统拆解其八条关键判断,帮助技术人重构对下一代智能体的设计思路与技术路线。

引言

Meta 用数十亿美元收购 Manus,看起来是一笔激进的战略支出,背后却是一次清晰的技术架构选择。资本动作只是一层表象,更关键的是 Manus 在通用 Agent、云端虚拟机、多模型编排和系统工程上的一整套判断,这些判断在当时并不主流,却构成了新一代智能体架构的雏形。对关注 AI Agent 的技术人而言,Manus 代表的不是一款单一产品,而是一种产品哲学和系统设计方式。

这篇文章从架构和工程视角出发,围绕 Manus 的八条非共识路径,把战略判断拆解成可落地的技术与系统设计要点。全文会尽量用清晰结构、表格和流程图,帮助读者从概念走到实现,理解为什么 Meta 会用数十亿美元押注这样一套体系,以及这种体系对接下来 Agent 产品的设计有哪些可复用的方法。

☉ 一、收购背后的技术定位与架构看点

1.1 Manus 给 Meta 补上的关键能力

Meta 已经有自研大模型和算力基础,但在通用 Agent 产品形态和执行系统方面并不领先。Manus 正好在这条线上走在前面,且路线极度聚焦。Meta 收购的并不只是一个已经跑通营收的产品,而是一整套关于智能体架构的系统答案。

可以简单概括 Manus 带来的能力组合。第一是通用 Agent 入口,能理解用户几乎任意自然语言意图。第二是云端虚拟机环境,为 Agent 提供一台长期存在、可控可观测的“电脑”。第三是多模型编排能力,在一个任务链路中按步骤选择最合适的模型。三者组合起来,形成了一个从理解需求到真正执行操作的闭环,而不是停留在对话层。

1.2 从 AI 浏览器到通用 Agent 的路径选择

Manus 团队并不是一开始就锁定通用 Agent 这个方向。早期他们已经把一款 AI 浏览器做到上线前一周的程度,内测表现良好,交互形态类似后来的 Arc AI 和 Perplexity 的浏览器增强方案。在常规逻辑下,这个产品直接推向市场,是一条风险较小的路。

内测中出现的一个现象改变了他们的判断。团队发现语言模型在操作浏览器时非常熟练,经常会主动接管页面操作,这种行为会和真人用户产生冲突。场景非常像一个实习生上班不带电脑,而是直接抢你的电脑工作。这个现象让他们意识到问题的本质不在浏览器本身,而在于AI 和人类不应该竞争同一套交互和执行环境。这促成了后面“给 AI 一台自己的电脑”这一核心决策,也直接把路线从 AI 浏览器转向云端 Agent 系统。

1.3 架构层面的收购价值

从架构视角看,Meta 收购的更多是一个已经在以下要素上做出清晰取舍的框架。

  • 通用能力为入口,而不是从单一垂直场景切入

  • 云端环境为执行载体,而不是在用户端做各种插件

  • 多模型和工具编排为能力扩展方式,而不是只堆叠大模型规模

这意味着 Meta 不需要在内部再经历一次从插件型助手、垂直工具,到通用 Agent 的反复试错,可以直接把 Manus 的架构思想并入自家模型和基础设施。这种节省的是时间成本和机会成本,也是这笔收购真正偏向技术与路线的原因。

☉ 二、给 AI 一台“自己的电脑”:云端虚拟机与工具链

Manus 的第一个关键判断是AI 需要一台属于自己的电脑。这台电脑不在用户桌面,而在云端环境,并且长期存在、可观测、可控制。

2.1 传统插件式 Agent 的局限

很多早期 Agent 产品采取的是插件式设计。浏览器侧边栏、IDE 插件、办公软件插件是常见形态,Agent 在用户当前环境内执行操作,优势是接入门槛低,劣势却非常明显。

第一,控制权混乱。用户和 Agent 共用一个界面,谁来点按钮、谁来滚动页面、谁来输入表单变得模糊,尤其在多步复杂任务中,用户很容易失去对系统状态的感知。第二,权限和安全边界不清晰。Agent 操作的范围往往和用户一致,一旦 Agent 行为不当,很难做细粒度隔离。第三,难以沉淀长期状态。插件一般围绕单次会话,缺少一个能长期保存上下文、缓存和登录状态的独立环境。

这些问题在简单增强场景中尚可接受,一旦任务变长、工具变多,体验就会迅速恶化。Manus 选择从架构根上切换范式,不让 Agent 再来“抢用户的电脑”,而是给 Agent 一台自己的机器。

2.2 云端虚拟机架构概览

在 Manus 架构中,每个用户背后可以映射到一个或一组云端虚拟机。虚拟机中安装了浏览器、终端、编辑器、任务调度器以及一系列工具 SDK,Agent 通过控制这台虚拟机来执行任务。用户在前端看到的是一个相对简洁的对话和任务视图,而虚拟机中发生的是完整的自动化操作。

可以用简化流程图表示这个架构。

用户请求先进入 Agent 层,由 Agent 进行任务分解和模型调用规划。再由 Agent 控制云端虚拟机调用不同工具,执行真实操作。虚拟机会持续产生状态和日志,既用于任务追踪,也用于后续学习和优化。

2.3 安全隔离与权限控制

给 AI 一台自己的电脑,最直接的收益是安全边界清晰。虚拟机就是边界内的世界,权限粒度可以做到更细。

第一,可以只在虚拟机中配置必要的访问凭证,例如针对某些网站的专用账号和 Cookie,不必全面继承用户本地的所有能力。第二,可以把高风险操作限制在特定子环境,例如文件系统沙箱、独立浏览器配置目录,做到即使 Agent 行为异常,影响也被限制在可控范围。第三,虚拟机可以支持完整的可观测性,包括录屏、操作日志、网络访问记录,这对调试 Agent 行为、回溯故障原因极其关键。

从实现角度看,这一层更接近云原生基础设施问题,而不是普通前端功能。如何高效启动和销毁虚拟机、如何在多用户间做资源隔离与调度、如何降低冷启动延迟,都会直接影响产品可用性。

2.4 工具链抽象与命令接口

虚拟机内部不仅是一台裸系统,更关键的是一套可被 Agent 调用的工具链。这些工具往往被抽象成统一的命令接口,便于在语言模型一侧规划调用。

一个常见做法是定义统一的工具描述格式。每个工具暴露自己的名称、输入参数、输出结构和幂等性说明,然后在 Agent 的系统 Prompt 中注册这些能力。语言模型在规划任务时,会基于这些描述选择调用顺序。虚拟机会暴露一个网关,负责把这些工具调用转换成具体的命令执行,例如启动浏览器打开页面、执行 Shell 命令、运行脚本。

这种做法的优势有两点。其一,Agent 可以在不改动前端的情况下快速接入新工具,只要在虚拟机和工具网关一侧完成部署并更新描述即可。其二,工具执行结果以结构化形式返回,方便被语言模型继续推理和决策,构成一个闭环。

☉ 三、AI Coding 民主化:从工程师工具到通用执行引擎

Manus 另一个看似产品层的判断,其实也深刻影响了架构设计。团队从 Cursor 的使用情况看到一个信号,不会写代码的普通人开始通过 AI 使用编程能力,这一点打破了“编程能力只属于工程师”的旧前提。

3.1 从工程师工具到大众入口

Cursor 等 AI 编程工具本来是面向开发者设计的。Manus 团队观察到,不写代码的同事甚至家人,开始用它处理日常任务,例如写小脚本批量改文件名、做格式转换。用户并不关心语言和语法,只在意目标是否完成。

这个现象带来一个明显结论。AI coding 的收益不该只停留在工程师群体,而应该被包装为一个人人可用的执行引擎。这样一来,架构层需要把编程视作 Agent 的内部实现细节,而不是用户面对的门槛。用户用自然语言描述目标,Agent 在云端生成和执行代码,完成任务,用户只观察结果和进度。

3.2 自然语言到代码的执行流水线

把 AI coding 民主化,需要一条相对清晰的执行流水线。可以拆成几步。

第一步是需求澄清和约束收集。用户的自然语言描述往往含糊,Agent 需要通过问答补足关键信息,例如文件路径、时间范围、目标格式。第二步是任务分解与代码生成。Agent 基于当前环境和工具链,把任务拆解成若干小步骤,为每一步生成可执行代码或命令。第三步是在虚拟机中执行和观察。代码在云端虚拟机运行,Agent 持续读取日志和输出,必要时修改和重试。第四步是结果校验与汇报。Agent 根据用户最初目标检查结果是否符合预期,如果存在偏差,会主动提问或建议调整方案。

这一流水线的关键在于中间环节的反馈回路。语言模型不只是一次性生成代码,而是在看到执行结果后自主修正方案。虚拟机的可观测性为这条路提供了信息基础。

3.3 面向非工程用户的交互设计

要让非工程用户也能受益,前端交互不能暴露过多技术细节。一般有几条原则。

第一,尽量不用专业术语。不要在界面上直接出现“脚本”“命令行”等字眼,而是用任务和结果描述。第二,把复杂度留在时间维度,而不是空间维度。初始界面保持简洁,随着任务推进逐步展示更多细节,例如执行进度、子任务列表、关键输出。第三,提供可回滚和干预点。对于可能修改数据的操作,让用户在关键步骤显式确认,并能方便地中止或回滚。

从系统设计角度看,AI coding 民主化的本质是把编程语言作为中间层协议,而不是终端用户接口。Agent 懂这种协议,虚拟机执行这种协议,用户不必被迫理解这种协议。

☉ 四、通用 Agent 优先:做“百度”,不做“Hao123”

第三条非共识判断是产品边界选择。Manus 没有从单一垂直场景开始,而是坚持先做通用 Agent。这看起来违反“聚焦单点场景”的常规创业指南,却从技术系统和生态角度更合理。

4.1 通用与垂直 Agent 的结构差异

可以用一个简化表格对比两种路径。

维度

通用 Agent

垂直 Agent

入口形态

统一自然语言输入框

固定功能入口列表

能力组织方式

按意图和语义路由

按业务场景划分

扩展方式

新意图映射新工具或新流程

新场景新增模块

获客方式

一处入口覆盖多类需求

每个场景单独拉新

架构风险

前期复杂度高

后期容易形成能力孤岛

垂直 Agent 更容易讲清价值,例如“机票预订 Agent”“报销 Agent”。但这些场景的获客和留存往往各自独立,技术栈也容易分裂,最终形成一个个孤岛。通用 Agent 起步难度高得多,却利于后续统一演进。

4.2 通用入口与意图路由

做通用 Agent 的前提是有一个能承载多种意图的入口,并且可以可靠地将这些意图路由到不同工具或子系统。这一层可以理解为语义网关

语义网关常见的实现有两种。第一种是基于大模型的意图识别,通过系统 Prompt 和少量模板,让模型给出用户输入的意图分类和相关参数。第二种是结合向量检索和规则,把输入在语义空间和既有意图库比对,再通过规则修正分类结果。无论哪种方式,目标是把“任何自然语言输入”都映射成一个规范化任务描述,便于后续系统处理。

在 Manus 的路径中,通用入口的价值不只是方便用户,而是为后续统计需求分布、再反向长出垂直能力提供基础。当大量用户都在让 Agent 做行程安排,可以针对这个意图设计更好的工具和模板,并通过语义网关自动接入。

4.3 在通用之上生长垂直能力

通用 Agent 并不排斥垂直场景,相反,成熟的通用 Agent 一定会衍生出多个高频垂直能力。差别在于顺序和承载方式。

第一,从数据中抽取场景,而不是拍脑袋定义场景。通过对真实任务分布的统计,识别哪些意图最常见、价值最高,再针对这些意图做专门优化。第二,垂直场景作为能力包挂载在通用 Agent 之下,而不是独立产品。用户仍走通用入口,系统自动切换为更专业的流程和工具集。第三,技术栈尽量统一。通用和垂直共用同一套虚拟机、工具链和状态管理,只在逻辑和提示词层面差异化,避免后期维护负担过重。

这种路径的优势在于通用 Agent 始终是用户心中的中枢,不会碎裂成一堆各自为政的小机器人,同时又能保证高频场景的体验质量。

☉ 五、模型与“壳”的协同演进:下一代智能体界面

Manus 的第四条判断是关于产品形态的。团队认为,每一代模型能力的迭代都需要一代新的交互壳来承载,旧的交互形式无法充分发挥新能力的价值。

5.1 Jasper 到 Manus 的交互演进

可以用一个表格来回顾几代典型产品的形态演变。

阶段产品

交互核心

面向任务类型

代表特征

Jasper

模板填空

文本生成

强预设结构,适合高频固定文案

ChatGPT

对话框

通用问答和推理

自由度高,但缺乏行动通道

Monica

浏览器侧边栏

搜索增强和网页理解

自带上下文,贴近浏览器使用场景

Cursor

编辑器集成

编码与代码重构

直接读写项目文件,靠近工程主战场

Manus

云端 Agent 壳

通用任务与自动执行

独立虚拟机、多工具、多模型编排

这个演进过程的一个内在规律是,模型能力越强,交互壳越需要靠近真实行动环境。从纯文本对话,走向直接操作代码,再到操作整台虚拟机,都是在减少“人类中介”的工作。

5.2 渐进式披露的界面组织方式

Manus 在界面上采用了渐进式披露的策略。初始界面尽可能接近一个简单输入框,类似搜索引擎或普通聊天应用。随着任务执行,系统按需展示更多信息和工具,而不是一开始就把所有面板铺满。

在一个典型任务中,界面信息可能按以下顺序展开。开始只有对话区,显示用户请求和 Agent 回复。当 Agent 决定打开浏览器或终端时,相关视图才会以标签形式出现。任务进度需要被跟踪时,再展示任务列表和状态条。用户如果主动展开高级视图,还可以看到虚拟机中的详细执行日志。

这种设计有两个作用。其一,降低首次使用者的认知负担,让他们把 Agent 当成普通助手即可。其二,为未来功能扩展保留空间,新工具可以按需挂载在同一框架内,而不必重新设计交互范式。

5.3 操作系统隐喻与一级应用体系

为了管理虚拟机中的多种工具,Manus 借用了操作系统的隐喻。浏览器、终端、文档编辑器、表格工具等被视作平行的一级应用,类似桌面系统中的应用图标。Agent 不断在这些应用之间切换,就像用户操作电脑那样。

这种隐喻的好处在于一致性。用户对操作系统的经验可以复用,不必重新学习一套完全陌生的概念。技术实现也更清晰,每个一级应用对应一个相对独立的前后端模块,接口清楚,利于维护。对于后续扩展,新增能力只要定义为一个新的应用即可,统一接入虚拟机和工具链。

从架构角度看,这一层更像是智能体版的“微前端 +微服务”。每个应用独立演进,Agent 负责编排和协调。虚拟机是它们共享的运行空间,多模型调用是它们共享的认知引擎。

☉ 六、Less Structure, More Intelligence:从 Workflow 到自主规划

第五条非共识判断涉及任务编排方式。行业在一段时间内对可视化 Workflow 工具非常热衷,把复杂任务拆解成固定节点和连接,让产品经理可以拖拽配置流程。Manus 的选择是走另一条路,更少预设结构,更相信模型本身的规划能力。

6.1 Workflow 范式的优势与限制

Workflow 范式并不失效,在固定高频业务流程中依然很有用。例如审批流、报销流、订单处理,这类任务结构稳定、步骤明确,流程图可以很好表达。对这类场景,可视化工作流降低了开发和运营成本。

问题在于长期过度依赖 Workflow,会产生两个风险。第一,对长尾任务支持不足。现实世界中,用户的请求往往带有大量变体,难以事先覆盖。第二,对模型进化不够敏感。随着模型推理能力增强,很多原本需要多节点、多分支的流程,其实可以交给模型一次性规划和执行。把这些能力继续固化在 Workflow 中,反而成为负担。

6.2 零预设工作流的架构要求

Manus 提出的零预设工作流,并不是完全没有结构,而是把结构约束降到最小。系统提供的是一套抽象良好的原子能力和环境,任务如何组合这些能力,由 Agent 在运行时决策。

要支撑这种模式,架构上需要几项能力。第一,高质量的工具描述和能力抽象,方便模型理解和调用。第二,强可观测的执行环境,让模型可以根据中间结果调整后续步骤。第三,任务级别的安全和资源限制,避免模型在尝试探索时带来不可控风险。

在这种框架下,语言模型更像一个实时的“编排器”。它在每一步根据当前状态决定下一步调用哪个工具、怎样拆解子任务,而不是执行预先绘制好的流程图。

6.3 在信任智能与可控之间平衡

完全放任模型自然也不可行。Manus 在“更少结构”和“必要控制”之间做了几层防护。

首先在任务入口层面限制高风险操作,对涉及转账、删除数据这类操作,要求用户显式授权或额外确认。其次在资源配额和时限上设边界,让每个任务在 CPU 时间、内存占用、外部请求数量上都有上限。最后在日志审计和回放机制上做足功夫,确保每次任务都有可追踪的操作链路。

这种平衡的核心是,把结构从业务逻辑层下沉到资源和安全层。业务逻辑由智能体自组织,资源和安全由系统强约束。相比大量业务级 Workflow,这样的约束更稳定,也更容易随模型能力变化调整。

☉ 七、Agent 是系统级竞争:模型、多模型与环境工程

第六条非共识判断是对竞争维度的理解。Manus 认为 Agent 之间的竞争不只是模型质量的对比,而是一个系统级能力组合的比拼。

7.1 Agent 的三要素

从工程角度看,一个可用的 Agent 至少包含三个要素。第一是模型,负责理解意图和做推理。第二是环境,也就是任务实际执行的场所,对于 Manus 是云端虚拟机与外部网络。第三是工具和资源,包括各种 API、应用、账号与数据源。

可以把这个关系画成一个简单图形。

模型通过规划组件决定如何使用环境和工具。环境提供执行力,工具和应用扩展能力边界。状态数据则在多轮之间闭环。

这种结构意味着,单一模型公司即便模型极强,如果不把环境和工具做深,也难以独自完成闭环。Manus 选择在环境和工具层加码,形成和模型公司的互补。

7.2 多模型编排引擎设计

在模型层,Manus 做出的另一条非共识判断是不绑定单一模型供应商。系统允许在同一任务链中调用不同模型,各自发挥所长。搜索相关任务使用擅长检索和摘要的模型,代码生成使用在编程上表现更好的模型,复杂推理交给推理能力突出的一档。

这类多模型编排一般包含几个组件。第一,模型路由策略,根据任务类型、历史表现和成本约束选择目标模型。第二,统一接口层,屏蔽不同模型在调用协议、参数格式上的差异,对上游暴露稳定接口。第三,度量与反馈机制,对每类任务记录不同模型的表现,包括成功率和耗时,为后续路由优化提供数据。

多模型带来的好处不仅是性能和成本平衡,还有架构上的灵活性。模型供应商格局变化时,系统可以更从容地调整组合,而不会被某一家锁死。

7.3 环境工程与登录态持久化

环境工程是 Manus 很下功夫的一块。很多 Agent 工具的软肋在于执行环境是一次性会话,每次对话结束,之前的登录状态、页面上下文、执行中间产物都会被清空。用户不得不不断为 Agent 准备环境,体验非常割裂。

Manus 把环境视为长期存在的资源,做了几件事。第一,登录态持久化。虚拟机中浏览器的 Cookie 和本地存储会被安全保存,Agent 在后续任务中可以继续利用已有登录状态访问网站。第二,任务上下文持久化。在同一域名或同一项目相关的任务之间共享部分状态,例如项目路径、上一次的结果缓存。第三,环境版本管理。对关键工具和配置做版本记录,在必要时可以回滚到某个已知良好的环境快照。

这些能力在表面上看不显眼,却直接决定 Agent 是否能真正成为“数字代理人”。没有持久环境的 Agent 更像一次性脚本,有环境的 Agent 才能接手长期任务和日常工作。

☉ 八、从“一次性对话”到“持续存在”的数字代理人

在环境工程基础上,Manus 实际上在追求一种更长周期的关系形态。Agent 不再是一次性对话对象,而是持续存在的数字角色,可以长期代表用户在网络上行动。

8.1 会话即弃用带来的问题

传统聊天机器人模式中,会话高度短暂。用户问一个问题,得到一个答复,这次交互就结束。即便有聊天记录,也很少被系统用作长期规划和执行依据。对于简单问答这没有大问题,对复杂任务则非常局限。

典型问题包括几个方面。第一,重复劳动。每次任务都要重新配置登录、权限和上下文。第二,缺乏长期记忆。Agent 无法自然地基于过去的项目和任务输出更符合个人偏好的方案。第三,无法承担真正的持续职责。例如持续监控某些网站变动、定期整理报告,这些工作需要有一个长期在岗的实体。

8.2 状态持久化的数据模型

要实现持续存在的 Agent,系统需要为 Agent 设计一个长期状态数据模型。它大致可以包含几类信息。

第一类是用户级别偏好和配置,包括常用网站、工作时间偏好、文件夹组织习惯等。第二类是任务级别的长期计划和进度,例如某个长期项目下的任务树、里程碑和阶段性结果。第三类是环境级别的状态引用,包括虚拟机快照、登录态标识和相关元数据。

状态持久化并不意味无止境存储所有细节,而是要抽象出对后续决策有价值的那部分信息。数据模型需要在粒度和成本之间取得平衡。粒度太粗,后续没有足够信息支撑个性化决策。粒度太细,系统维护成本和隐私风险都会升高。

8.3 长期任务与调度中心设计

有了长期状态,只是让 Agent 具备记忆。要让 Agent 成为真正的数字员工,还需要一个任务调度中心,负责在时间维度安排任务执行。调度中心管理周期性任务、延时任务和触发型任务,与 Agent 和虚拟机配合。

例如用户可以给 Agent 一个目标,让它每周汇总一组网站的内容变化并发报告。调度中心会记录这一周期任务配置,在每个周期到来时唤起 Agent,激活对应虚拟机环境,执行采集和整理,然后把结果反馈。整个过程用户不必每次手动发起。

这个设计让 Agent 从“被动响应工具”升级为“主动行为主体”。技术上,这涉及任务队列、定时器服务、失败重试策略和结果告警机制,和常规后端系统并无本质不同,但和传统聊天式 AI 相比,行为模式有质的变化。

☉ 九、从早期流量到主流用户:信息传递效率的工程化

第七条判断指向增长和传播方式。Manus 在内测时期就获得大量自然流量,形成了一批愿意尝鲜的早期用户。这类用户的重要性不言而喻,但团队很清楚,这并不等价于主流市场接受。

9.1 创新者与主流用户的差异

创新者愿意为新奇体验付出时间成本,容忍错误和不稳定。他们会主动试探产品边界,挖掘隐藏能力。主流用户更在意的是结果是否稳定、交互是否清晰、使用心智负担是否足够小。

这两类用户对信息的敏感点也不同。创新者会对“第一个通用 Agent”“多模型编排”这类标签感兴趣,主流用户只关心能否帮他写好一份报告、整理完一个数据表。Manus 在这一点上做了一个克制决定,不把“通用 Agent”这个概念当成面向普通用户的宣传核心,而是更多强调具体可见的效用。

9.2 信息通路与负载设计

信息传递效率可以视作一个工程问题,而不是只靠营销经验。他包含几个维度。

第一是信息通路,也就是通过哪些渠道触达哪些用户。对于技术社区可以强调架构原理,对于企业决策者可以展示效率提升案例。第二是信息负载,即每一次曝光中传递多少信息。首页介绍只说一件事,具体能力拆到文档和引导流程。第三是信息结构,如何把抽象技术优势映射到具体场景表达,例如把“多模型编排”转译成“同一个 Agent 既能写代码又能查资料”。

把这些维度当成产品需求处理,有助于避免一味追求曝光量而忽视理解成本。对技术团队而言,这意味着需要和产品、市场一起定义一些面向信息传递的指标,例如从落地页到完成第一个任务的时间、引导流程完成率、功能发现率等。

9.3 面向工程团队的度量视角

工程团队常聚焦在延迟、成功率、资源使用这些底层指标。对 Agent 产品,这些当然重要,同时也需要引入一些新指标,以支撑信息传递效率目标。

可以考虑的指标包括,从首次访问到首次成功任务的平均轮数和时间,用于衡量引导是否足够直接。还可以统计不同入口文案带来的任务类型分布差异,看文案是否引导用户使用到了系统的核心能力。长期可以跟踪不同用户群体的留存和任务频率与他们最初了解产品信息渠道的对应关系,逐步形成一套面向传播的工程思维。

这类度量把“信息传递”变成了可观测对象,有利于在产品和技术改动时进行定量对比,避免盲目调整。

☉ 十、组织与博弈:小团队、强共识与生态位选择

最后两条判断更多涉及组织和战略,但同样影响技术路线。Manus 在早期保持了极小团队规模,前四十天只有五个人直接参与核心功能开发和交互设计。与此同时,创始团队在路线选择上明显采用了博弈论视角,而不是线性推理。

10.1 五人小队对架构的影响

小团队不只是效率高,更重要的是上下文高度统一。核心成员对产品愿景、用户画像和技术取舍有近乎完全一致的理解,很多架构决策可以在几次讨论中定型并迅速验证。

例如在是否引入复杂 Workflow 引擎、虚拟机隔离粒度、工具描述格式这些问题上,大团队很容易陷入长时间拉扯,小团队则可以根据核心判断直接实施。长期看,这种早期架构和产品体验的一致性比多几个功能更重要。等到核心体验跑顺,再逐步扩编,把这些决策沉淀为文档和规范,新成员就有清晰的参考。

从工程实践角度,这也提醒技术负责人在项目早期慎重控制人力规模。越是关键方向,越需要先由少数人把骨架搭好,再交给大部队扩展,而不是一开始就堆砌人数。

10.2 用博弈论视角设计技术路线

线性逻辑往往是“谁技术最强谁赢”。在大模型和 Agent 赛道,这种逻辑很难成立。大厂之间的互动、政策环境、生态伙伴等因素,会让很多线性判断失效。Manus 的路线选择体现出很强的博弈意识。

他们没有在大模型本身和算力层与巨头正面竞争,而是选择在通用 Agent 壳、多模型编排、环境工程这些巨头短期内不便深挖的方向投入。对大厂而言,这些方向重要但回报周期较长,自建成本高,而收购一个跑通的团队则更合算。这种选择本身就是对博弈格局的判断。

在技术路线设计上,博弈论思维可以转化为几个原则。第一,尽量避免和巨头的天然优势正面对抗,例如算力规模和基础模型预训练。第二,刻意占据那些对巨头有协同价值但不在其短期优先级的位置,例如跨模型编排、跨平台环境抽象。第三,在架构设计时保留一定的可集成性,让系统在被并入更大平台时改造成本可控。

10.3 “可被并购”的系统设计视角

从技术角度谈并购常被视为敏感话题。不过如果把并购视为一种可能的结局,用它来反推系统设计,会得到一些有价值的要求。

第一,边界清晰。系统应该有清楚的模块划分和接口层,便于被集成到更大平台,而不是和外部世界紧耦合。第二,依赖可替换。尽量让关键能力通过配置或适配层对接,而不是写死对某一云厂商或模型供应商的依赖。第三,文档和观测完善。对一个潜在收购方而言,可观测性越好,接手成本越低,越容易判断风险。

Manus 在虚拟机层、工具链层和多模型层的抽象,使其技术栈天然具备可整合特性,这也是 Meta 能够用较短时间完成尽调和收购决策的重要条件之一。从工程实践视角,这种“面向未来不确定所有者”的设计方式,对任何希望构建平台级产品的团队都有参考价值。

结论

Manus 被 Meta 以数十亿美元收购,是一次典型的非共识路线被主流认可的案例。从技术和架构视角总结,它的核心并不在某一个单点能力,而是在一整套相互呼应的判断。

这些判断包括给 AI 一台独立的云端电脑,把 AI coding 变成大众可用的执行引擎,先做通用 Agent 再生长垂直能力,随着模型迭代持续重构交互壳,用更少的预设结构换取更多的智能空间,把 Agent 视作模型加环境加工具的系统工程,通过多模型编排和环境持久化支撑长期数字代理人角色,并在组织和战略上坚持小团队强共识和博弈论视角。

对今天在做 Agent 产品和智能体平台的团队,这些原则可以转化成几个落地问题。是否为 Agent 准备了真正独立可控的执行环境。是否把编程当作中间协议而非门槛,是否用通用入口和语义路由替代大量预先划分的功能菜单。是否愿意把更多决策权交给模型,让结构沉到底层资源和安全。是否从一开始就把系统当成一个可能需要和多方生态对接的模块,而不是一块封闭组件。

这些问题没有统一答案,但 Manus 给出了一套在现实市场和技术环境中被验证的组合方案。在接下来的几年里,围绕通用 Agent 的架构竞争会进一步加剧,真正的差异更多来自这些看似“逆风”的早期选择。

📢💻 【省心锐评】

Manus 靠八条非共识技术路径,把 Agent 做成一套完整系统而非一个大模型壳。给 AI 一台云端电脑、多模型编排与环境工程,这些细节会是下一波 Agent 产品胜负的关键。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐