机器人的“暗物质”!Generalist AI联合创始人安迪·曾:破解物理常识,才是具身智能的关键
本文将深度解析安迪·曾眼中的“物理常识”本质、当前机器人行业的两大核心困境(LLM依赖、遥操作弊端),拆解Generalist AI的技术突破与GEN-0模型的创新亮点,对比其与Sunday Robotics、Figure等同行的技术路线差异,探讨物理常识对具身智能落地的核心价值,为技术从业者、行业观察者、投资者呈现最专业、最全面的深度解读。
摘要:物理交互,就是机器人领域的“暗物质”——看不见、摸不着,却无处不在,支撑着现实世界中机器人所有能正常运转的动作。近期,Generalist AI联合创始人兼首席科学家安迪·曾(Andy Zeng)发布了一篇技术反思,直指当前机器人行业的核心误区:过度痴迷于“大语言模型驱动”的推理能力,却忽略了智能的根本要素——物理常识。这种物理常识,并非描述任务的能力,而是人类在动作过程中,对力、摩擦力和不确定性的反应式、闭环直觉,是我们能在书本滑落时瞬间接住、在杂物堆中灵活取物的核心底气。尽管行业内对如何破解“物理AI瓶颈”仍有分歧,但安迪·曾提出了一个关键观点:这种难以捕捉的直觉,正从推动语言模型变革的同一股力量——规模效应中,逐步浮现。本文将深度解析安迪·曾眼中的“物理常识”本质、当前机器人行业的两大核心困境(LLM依赖、遥操作弊端),拆解Generalist AI的技术突破与GEN-0模型的创新亮点,对比其与Sunday Robotics、Figure等同行的技术路线差异,探讨物理常识对具身智能落地的核心价值,为技术从业者、行业观察者、投资者呈现最专业、最全面的深度解读。
一、核心痛点:被忽视的“物理常识”,困住具身智能的脚步
安迪·曾的核心论点,围绕着莫拉维克悖论(Moravec’s Paradox)的现代演绎展开——高层级推理在计算层面其实“成本低廉”,而低层级的感觉运动技能,却异常“昂贵”。这一悖论,在当前机器人行业体现得淋漓尽致:我们能训练出擅长生成复杂计划、编写代码的大语言模型,它们能精准描述“如何取到书架上的书”,却无法应对最基础的物理突发情况——书本滑落时不知如何瞬间调整力度接住,面对杂乱的书架不知如何避开障碍物、灵活发力。
这种差距的根源,就在于“物理常识的缺失”。安迪·曾用一个生动的比喻阐释了这一点:“在网上学习车管所手册,能获得有用的背景知识,但这和真实上路开车的体验,完全是两回事。” 这一观点,与AMI Labs的扬·勒丘恩(Yann LeCun)近期的批评不谋而合——勒丘恩认为,当前多数人形机器人企业之所以难以走向通用人工智能,核心原因在于它们过度依赖基于文本的 tokens(符号),而非通过观察理解现实世界的世界模型。
对机器人而言,物理常识是一种“下意识的直觉”:是拧紧螺丝时,能感知到力度过大即将滑丝,从而瞬间微调力度;是插入卡片时,能感觉到卡顿,从而轻轻调整角度;是抓取易碎物品时,能凭直觉控制握力,既不滑落也不捏碎。这种直觉,无需刻意思考,却贯穿于人类每一个动作的细节中,而这,正是当前机器人最稀缺的能力——它们能“听懂指令”,却不能“感知世界”,这也成为具身智能落地最核心的“暗物质壁垒”。
二、行业困境:遥操作的数据陷阱,催生“僵硬机器人”
想要让机器人学会物理常识,核心是获取“正确的数据”——能捕捉到人类物理交互中“下意识反应”的数据。但安迪·曾指出,当前行业内普遍采用的遥操作(远程控制)方式,恰恰陷入了一个数据陷阱,不仅无法获取有效数据,反而会让机器人变得“僵硬、迟缓”。
传统遥操作的核心弊端,在于它打破了“感知-动作”的闭环:由于延迟和非自然的操作界面,操作员被迫进入缓慢、刻意的“系统2思考”(理性、刻意的决策),而非人类真实物理交互时的“系统1思考”(直觉、下意识的反应)。这种情况下,操作员控制机器人做出的动作,往往是僵硬、不连贯的——比如抓取物品时,动作迟缓、发力生硬,无法做出下意识的微调整,而用这些“僵硬的数据”训练出的机器人,自然也会延续这种弊端,在真实场景中显得格格不入。
举个简单的例子:人类用手抓取滑落的杯子,整个过程不到0.5秒,是下意识的反应;而通过遥操作控制机器人抓取滑落的杯子,由于延迟,操作员需要先观察到杯子滑落,再思考如何操作,最后发出指令,整个过程耗时数秒,动作生硬,往往无法成功抓取——这样的数据,即便积累再多,也无法让机器人学会“下意识的物理直觉”。
安迪·曾强调,机器人需要的不是“人类刻意模仿的动作数据”,而是“人类真实的物理交互数据”——包含反射动作、微调整、实时恢复的闭环数据,这也是Generalist AI突破的核心方向。
三、技术突破:轻量化交互设备,捕捉人类“下意识反射”
为了破解遥操作的数据陷阱,获取高质量的物理交互数据,Generalist AI走出了一条差异化路线——放弃传统笨重的遥操作设备,研发了轻量化、符合人体工学的手持设备,核心目标是捕捉人类物理交互中的“反射动作、微调整和实时恢复”,还原人类真实的“感知-动作”闭环。
这种手持设备,体积小巧、操作灵活,能精准捕捉操作员手部的每一个细微动作——包括发力的力度变化、角度微调、甚至是下意识的抖动和恢复动作。与传统遥操作设备不同,它能让操作员以最自然的姿势进行操作,减少延迟带来的影响,让操作员能够进入“下意识反应”状态,从而生成最贴近人类真实动作的数据。
这种聚焦“高保真、反应式数据”的思路,也让Generalist AI的GEN-0模型,与同行形成了鲜明差异。GEN-0作为Generalist AI的核心模型,依托这种高质量数据进行预训练,参数规模达到70亿时,出现了明显的“相变”——不再是单纯模仿人类的动作,而是开始内化基础物理定律,能够自主做出一些“未被明确编程的反应”,这正是安迪·曾所说的“物理常识的涌现”。
值得注意的是,GEN-0的训练数据量,远低于同行——它无需积累海量的人类动作视频,而是通过“高质量闭环数据+规模效应”,让模型自主学习物理常识。安迪·曾表示,这种方式的核心优势,在于“数据的质量,远胜于数据的数量”——100条包含下意识反应的闭环数据,远比10000条僵硬的遥操作数据更有价值。
四、赛道对比:不同技术路线,角逐物理常识突破口
随着物理常识成为具身智能的核心突破口,行业内不同企业走出了截然不同的技术路线,其中,Generalist AI与Sunday Robotics的对比最为鲜明——两者都聚焦于“捕捉人类物理交互数据”,却采用了完全不同的设备和思路;而Figure等企业,则走上了“海量视频数据”的路线,形成了三足鼎立的竞争格局。
1. Generalist AI vs Sunday Robotics:手持设备 vs 捕捉手套
Generalist AI的核心思路,是“轻量化、全场景”——通过手持设备,捕捉人类全身物理交互中的下意识反应,不仅局限于手部,还能覆盖手臂、躯干的细微动作,适配抓取、搬运、组装等多种场景,核心目标是“还原人类完整的物理交互闭环”。
而Sunday Robotics则走上了“精准化、手部聚焦”的路线——其整个系统都围绕一款“技能捕捉手套(UMI)”构建,这款手套经过100次迭代优化,能够精准捕捉人类手部的每一个细微动作,包括手指的弯曲角度、发力力度、甚至是指尖的触觉反馈。Sunday Robotics声称,凭借这款手套捕捉到的高保真灵活性数据,其轮式机器人Memo,能够完成折叠袜子、抓取红酒杯等精细度极高的任务,完美应对易碎、易变形物品的操作。
两者的路线,没有绝对的优劣之分:Generalist AI的手持设备,适配场景更广泛,能支撑机器人完成更多样的动作;Sunday Robotics的捕捉手套,在手部精细操作上更具优势,适合聚焦精细作业场景。但两者的核心共识一致——只有捕捉到人类真实的物理交互数据,才能让机器人学会物理常识。
2. 与Figure、Skild AI等同行:差异化路线,各有侧重
除了Sunday Robotics,行业内其他企业的路线也各有特色,与Generalist AI形成了鲜明对比:
Figure的核心路线,是“海量人类视频数据”——通过收集大量人类日常动作的视频,让模型模仿人类的动作模式,试图通过“规模效应”让模型自主学习物理常识。但安迪·曾对此提出了质疑:单纯的视频数据,只能捕捉到“动作的表象”,无法捕捉到动作背后的“力度、反馈和微调整”,相当于“只看到了人类在做什么,却不知道人类是怎么做到的”,很难让模型真正内化物理定律。
Skild AI则聚焦于“全躯体通用性”,目标是打造一款能适配多种躯体形态(双足、轮足、机械臂)的通用智能体,核心优势在于“技能的跨硬件迁移”,但在物理常识的深耕上,不如Generalist AI聚焦;1X Technologies则依托生成式视频,让机器人“想象”家务场景,提前预判动作可能遇到的物理问题,从而优化动作,但这种方式仍依赖“预判”,而非实时的物理感知。
五、关键突破:涌现的物理直觉,机器人的“灵光时刻”
Generalist AI的技术路线,已经取得了实质性突破——安迪·曾在技术反思中,展示了GEN-0模型的一系列“灵光时刻”:机器人做出了一些从未被明确编程的动作,这些动作,正是物理常识“涌现”的直接体现,也是模型内化物理定律的最好证明:
1. 接住滑落的垫圈,并轻轻推了两下,将其精准送入狭窄的卡槽中——这一动作,需要机器人瞬间感知到垫圈的滑落趋势,调整力度接住,再根据卡槽的位置微调发力,完全是下意识的物理反应;
2. 将容器从垃圾桶壁旁轻轻推开,为手指腾出抓取空间——机器人无需指令,就能自主判断“空间不足”这一物理困境,并做出相应的调整,展现出对“空间和力度”的直觉理解;
3. 在纸板组装过程中,插入卡片时出现卡顿,机器人用另一只手指辅助调整,成功完成插入——这一动作,需要机器人感知到“卡顿”的物理反馈,自主调整策略,而非机械重复指令。
安迪·曾表示,这些行为背后,是大规模机器人预训练带来的“接触密集型交互的先验知识”——当模型参数达到70亿的阈值时,会出现“相变”,不再是单纯模仿动作,而是开始自主理解物理规律,比如“力的传递”“空间约束”“物体的稳定性”等。这一发现,也印证了Generalist AI路线的正确性:无需刻意编程物理规则,只要给模型足够多的“高质量物理交互数据”,物理常识就会自然涌现。
六、行业未来展望:物理常识,决定具身智能的终极高度
Generalist AI的技术突破,标志着机器人行业正从“编程完美主义”向“学习直觉主义”转型——这是一场深刻的赛道变革,而物理常识,将成为决定企业竞争力的核心要素,也是破解具身智能“暗物质壁垒”的关键。
1. 核心优势:
优势一:路线壁垒,精准切入核心痛点。摒弃行业普遍的“LLM依赖”和“遥操作陷阱”,聚焦“物理常识”这一核心缺口,通过高质量闭环数据+规模效应,让物理常识自然涌现,路线更具前瞻性;
优势二:数据壁垒,高质量胜于高数量。研发轻量化手持设备,捕捉人类下意识的物理反应数据,打破“感知-动作”闭环,数据质量远超传统遥操作和视频数据,让模型能真正内化物理定律;
优势三:产品壁垒,GEN-0模型具备落地潜力。70亿参数的GEN-0模型已出现物理常识涌现,能完成未编程的物理交互动作,相较于同行的“理论型”模型,更具落地可行性,可适配组装、抓取、搬运等多种工业和生活场景。
2. 潜在挑战:两大考验,决定技术落地成色
挑战一:数据规模化的成本。尽管Generalist AI的手持设备能获取高质量数据,但想要支撑模型进一步升级,需要大量的场景化数据,而手持设备的操作效率有限,如何在保证数据质量的前提下,实现数据规模化积累,是其面临的核心考验;
挑战二:物理直觉的泛化能力。当前GEN-0模型的物理常识,仍局限于简单的接触式交互,面对更复杂的物理场景——比如潮湿地面的摩擦力变化、易碎物品的复杂受力等,能否自主调整,仍有待验证;同时,如何让这种物理直觉,实现跨场景、跨硬件的迁移,也是需要突破的难题。
3. 未来展望:破解暗物质,打造“能感知世界”的机器人
短期来看,Generalist AI将聚焦两大核心任务:一是优化轻量化手持设备,提升数据捕捉的精度和效率,扩大数据积累规模,推动GEN-0模型进一步升级,让物理常识的涌现更稳定、更全面;二是推进技术试点,将GEN-0模型适配到更多机器人硬件上,验证其在工业组装、家庭服务等场景的落地可行性。
中期来看,Generalist AI将推动“物理常识与高层级规划的融合”——让机器人既能听懂指令、制定计划,又能凭借物理直觉应对突发情况,实现“理性规划+直觉反应”的双重能力;同时,探索与其他企业的合作,将其高质量数据和模型能力,赋能给更多机器人硬件厂商,打造“物理常识赋能生态”。
长期来看,安迪·曾的终极目标,是打造一款“能真正感知物理世界”的通用机器人——它不只是一个“指令执行者”,更是一个“世界感知者”,能应对真实世界的杂乱、突发和不确定性,能像人类一样,凭直觉完成每一个动作。随着行业逐步向“硬件无关的技能市场”发展,物理常识这一“暗物质”,将成为区分“噱头型机器人”和“实用型机器人”的核心指标——只有掌握了物理常识,机器人才能真正走出实验室,融入人类的物理世界,成为真正有用的工具。
从“听懂指令”到“感知世界”,具身智能的赛道,正因为Generalist AI的探索,而逐渐拨开“暗物质”的迷雾。安迪·曾的观点,不仅为行业指出了一条清晰的突破路径,也让我们意识到:具身智能的终极高度,不取决于机器人能“思考”得多复杂,而取决于它能“感知”得多真实。未来,随着物理常识技术的持续突破,那些曾经僵硬、迟缓的机器人,终将拥有“下意识的直觉”,真正走进我们的生活和工作中。
相关研报参考:
2025具身智能发展全景报告:从技术探索到场景落地,开启通用智能新征程

更多推荐


所有评论(0)