用人类脑电波教 AI 开车,这位清华 90 后学者直言隐式信号里藏着 AGI 的关键 | 万有引力
语言说不清的,身体会用信号“自己说话”。
作者 | 唐小引
出品 | CSDN(ID:CSDNnews)
想象一下:什么是“老司机”的直觉?
你正在开车经过一个繁忙的路口。右侧停着一辆公交车,挡住了你的视线。突然,你的脚不自觉地放在了刹车上。为什么?你的眼睛并没有看到行人,也没有看到红灯。
几秒钟后,一个骑着电动车的人从公交车头“鬼探头”冲了出来。你从容踩下刹车,避免了一场事故。
这就是我们常说的 “车感”或者“驾驶直觉” 。它不是教科书上死记硬背的规则,而是一种基于经验的、潜意识的风险预判。这种能力,是人类大脑在处理了无数次复杂路况后进化出的“超级算法”。
现在的自动驾驶系统虽然已经很厉害了,能识别车道线、红绿灯,甚至能识别几十种不同的车型,但它们往往缺乏这种“直觉”。它们像是一个刚拿驾照、只会死守交规的新手,遇到没见过的复杂情况(比如那个被挡住的盲区)时,往往会不知所措。
那么问题来了:我们能不能把老司机的这种“直觉”,直接“拷贝”给人工智能呢?
最近,来自清华大学智能产业研究院(AIR)的团队,就做了一件科幻电影里才有的事:他们用人类驾驶员的脑电波(EEG),教会了自动驾驶模型如何像人一样“思考”!
这项发表在人工智能顶会 NeurIPS 2025 上的成果,名叫 E³AD。其背后的发起人——龚江涛博士生于 1990 年,成长于陕西汉中。清华十年,她始于计算机科学,深入神经科学,走上了具身认知增强之路。本期《万有引力》,一起来走进她的故事以及对于类脑认知的研究及思考。
AI 交叉人生的十字路口:从计算机到人机交互
唐小引: 大家好,欢迎收听《万有引力》。今天的嘉宾是清华大学助理教授龚江涛老师,龚老师的主要研究方向是学习、驾驶、工作等强认知活动场景中的智能系统设计及具身认知增强的类人智能体。 欢迎龚老师,请和大家打个招呼,做一下自我介绍,可以简要分享一下自己个人产学研经历的故事。
龚江涛: 大家好,我是龚江涛。目前在清华大学智能产业研究院工作,担任助理教授、助理研究员。今天很高兴受邀来这里,跟大家分享一下我在科研生涯的一些经历和思考。
我本科在清华大学软件学院学习,拿到计算机的第一学位。因为个人兴趣,本科期间我又在美术学院修读了第二学位,方向是数字娱乐设计。这段双学位的学习经历,也让我较早地建立起了交叉学科的视角和基础。
到了研究生阶段,我进入清华的信息艺术交叉学科项目——这是由计算机、美术学院和新闻传播相关院系共同建设的一个交叉培养项目。学习一段时间后,我跟随导师徐迎庆教授(清华大学教授、未来实验室主任)来到未来实验室,继续完成博士阶段的研究。
博士毕业时,我越来越明确地感受到:不管是做交叉研究,还是推动技术真正落地,都离不开对产业的深入理解。所以我选择加入联想研究院,在业界的科研机构里更贴近产业一线,去探索和实践——怎样把科研成果转化为企业能落地的产品。
有了这段经历之后,到了 2022 年,人工智能浪潮涌动。刚好张亚勤院士(中国工程院外籍院士、清华大学智能产业研究院院长)回归清华并成立了清华大学智能产业研究院(AIR),我觉得这个平台和我的方向非常契合,于是申请加入,在这里继续做学术与产业结合的研究与探索。
唐小引: 你从进入清华到博士毕业,花了 10 年的时间。很多人可能是由别的学科进入 AI 交叉科学,但你不一样——计算机出身,后来转到人机交互,并且一路走到了更交叉的研究路径。我想听听:第一,当初为什么选计算机?第二,很多计算机专业的人会一直在原方向深耕,你为什么会转向人机交互?背后的动因是什么?
龚江涛: 这个问题确实挺关键的。现在大家觉得人工智能、计算机是热门,但十年前并非如此,那会儿更热的反而是房地产相关。再加上我家人做城市规划设计,所以我当时的第一志愿其实更偏建筑、土木这些方向。
后来因为一些机缘巧合,没有走成那条路,我把软件学院作为第二选择。但这个“第二选择”也不是完全偶然——我在中学阶段接触过数学和信息学竞赛,第一次真正写代码的时候就很震撼: 你可以把自己的想法“教给”机器,让它替你去执行;就像把思维复制了一份,而且还能不断复用、扩展。我当时就觉得这件事特别有潜力,所以把软件相关的方向放进了自己的选择里。现在回头看,虽然当时有点阴差阳错,但确实也挺幸运。
进了软件学院后,我有很长一段时间非常沉浸在计算机体系里:从硬件体系结构、操作系统到编译原理,再到各种算法和软件系统。我越学越觉得这些底层原理特别迷人。但当我把这一套“原理链条”打通以后,也出现了一个更强烈的疑问:很多软件只是在一个固定设备里运行,它和真实的人类生活之间,好像隔着一道墙 ——除了输入输出的那一层接口,剩下的东西离普通人的感知有点远。我总觉得未来不应该只是这样。
也是在这个阶段,我接触到了人机交互相关的研究,视野一下就打开了。人机交互特别“交叉”:它不只是一个计算设备,而是会引入各种传感器去感知人的行为、意图和场景,让机器不必只靠键盘鼠标、或者那些“机器能懂但人得去适应”的指令,而是能更自然地理解人的语言、动作和习惯。换句话说,只有把“接口”这件事做好,再强的算法、再酷的技术,才真的有机会落到人类社会里去。这件事对我来说非常有吸引力。
所以后来有机会申请第二学位时,我了解到美院有一个和计算机结合的项目,我就特别想加入。也正是在那段学习里,我纠正了自己以前对设计的一些偏见——我曾经以为设计只是把东西做得好看,后来才意识到这想法太浅了。真正好的设计,既要逻辑上好用、体验上顺畅,又要能把新的能力做出来,甚至实现过去做不到的交互形态;而要做到这些,就必须把技术、认知、表达、场景等很多因素综合起来,串成一个完整的“故事” 。那段经历基本让我很清晰地找到方向:从读博到现在工作,我就一直沿着这条路走下来了。
唐小引:听下来确实是兴趣驱动,而且你刚才提到一个很强的对比:于你而言,计算机本身的局限,以及人机交互带来的更大空间。你能不能再具体一点,说说这个对比最“标志性”的点是什么?
龚江涛:对,我的体感是这样——算法和系统越往上走,确实会越来越抽象,也就更容易和真实世界的感受拉开距离。基础设施当然非常关键,但对普通用户来说,能真正“摸到”的往往就是接口那一层:怎么接触、理解、用起来。
技术进步的目的,最终还是要改善日常生活。 如果接口没有大的突破,人和机器的关系就很难更紧密——人很难在日常的每一个动作、决策里,都自然地和机器协同。那结果就可能变成:技术在技术圈里越玩越嗨,但普通人真正能享受到的,还是局限在“坐到电脑前、打开软件”的那一刻。 它更像是少数人的玩具,而不是大众生活的一部分。
唐小引: 我大概明白了。你希望技术能更多走进千家万户,不只是停留在技术人群内部,而是从消费侧、用户侧真正用起来——不管是个人还是行业。
龚江涛: 是的,我特别在意“用户能接触到技术的机会点”。触点越多,技术才越有可能真正帮到人。而人机交互做的事情,本质上就是创造新的交互途径和体验:一方面探索新的交互形态,另一方面不断优化已有体验,让机器越来越适应人,让技术能更自然、更无缝地融入人的日常生活。
唐小引: 你博士期间师从徐迎庆教授,博士后阶段在联想跟随芮勇院士(联想集团 CTO、欧洲科学院外籍院士)和王茜莺博士(联想集团全球副总裁、斯坦福大学人机交互博士),现在又在张亚勤院士创立的 AIR 任教。这三段经历分别给你的研究风格留下了什么烙印?对你有哪些影响和启发?
龚江涛: 确实,这一路走来我特别幸运,遇到了很多良师益友,对我的帮助非常大。
先说博士阶段的徐迎庆老师。我最早接触徐老师时,他还在微软亚洲研究院,后来他加入清华,我也能明显感受到清华在引进和支持人才方面是非常开放的。
从个人层面来说,徐老师是那种特别“立得住”的导师:人很正直,做事有原则,没有私心。对我而言,这种人格和学术气质本身就是一种很强的示范。更重要的是,他对交叉学科的理解和教学理念,长期在影响我——他的经历本身就是交叉的:本科是数学背景,后来转到计算机,同时又在艺术和创意表达上做过很有代表性的工作,比如参与过《新闻联播》片头彩带动画的创作,也在动画领域拿过不少奖项。在他身上,我看到的交叉不是“这边借一点、那边拼一点”的浅层组合,而是每到一个新领域,都能从底层逻辑去把它吃透,然后带着一种更颠覆、更原始的创新视角去做事情。这套方法论,对我博士阶段的研究根基影响特别深。
举个例子,我博士期间虽然在“人机交互”这个大方向里,但我真正最主要的研究工作,其实是在清华大学医学院展开的,做的是脑科学相关研究。这个起点也挺有意思:我刚加入徐老师团队时,做的是面向盲人的大幅面触觉显示器——用密集触点把图案“显示”出来,让盲人可以通过触摸去感知图形。
当时我接到任务后,一开始想的是:怎么生成更适合盲人理解的触觉图像?我查了大量资料后发现,很多工作只是把简单的视觉图像“转换”成触觉图像,本质上还是站在视觉的视角做映射,并没有真正从触觉的角度去理解“触觉信息应该怎么被表达”。我把这个想法跟徐老师说了,徐老师的反馈很直接:你说得对,那就先把“触觉到底是怎么回事”研究清楚。
于是我们就和医学院洪波老师(清华大学医学院教授)那边合作,开展了基于 fMRI(功能性磁共振成像)的研究,从大脑层面去看触觉相关的认知活动:从手上的感受器如何接收信息,到大脑怎么加工、怎么整合,甚至在不同条件下怎么产生代偿机制。那段经历完全超出了我原本的预期,但也正是它让我从另一个角度去理解“智能”:一个生物体是怎么感知环境、理解环境、处理信息并适应环境的。
当我把这种“生物智能”的机制和“计算机如何处理信息”的方式放在一起对照时,对算法设计的启发非常强。很多灵感不是那种绞尽脑汁才挤出来的,而是你真的看懂了“它原来是这么工作的”,idea 就会如泉涌般而来。
唐小引: 思想的涟漪。
龚江涛: 对,就是这种感觉。所以我一直觉得,博士阶段徐老师给我最大的影响,就是把我带到一个更“底层、更原始”的创新路径上:先把问题的“根”弄清楚,再往上长出方法和系统。这也几乎塑造了我后面一直延续至今的研究风格。
唐小引: 而且感觉这段经历也确实影响了今天的你——你的方向、你的方法,很多都从那时候延续下来了。
龚江涛: 是的。这段博士经历对我来说特别关键。
后来博士毕业时,我也有一个挺意外的经历:我当时作为系里第一个在院级毕业典礼上发言的学生代表上台演讲。当时我没有想到,可能一方面是我们的盲人触觉显示器项目本身影响力比较大,另一方面也是因为研究确实做得比较深入,所以才有这个机会。
也正是在毕业那个节点,我有一种很强烈的感觉:在学校里该系统学的东西,我差不多都学到了;但与此同时,我也有很多新的困惑——我做出来的东西,到底怎么在真实社会里产生价值? 如果这件事我想不清楚,那我作为一个未来要独立开展研究的人,就很难判断什么方向是“对社会真的有用”的。
更现实一点说,我未来还要带学生、指导学生。我得告诉他们怎么做研究、怎么成长、怎么在社会上站稳。但如果我自己都不清楚科研成果如何走向应用、如何在产业里形成价值,那我其实也很难把这些问题讲透给学生。
所以在那个时候,我就走到了第二段经历:去联想研究院。在这段经历里,对我影响最大的就是芮勇院士和王茜莺博士。芮勇老师和我导师是很好的朋友,我们在一次活动上碰到后,交流下来发现有很强的合作契机。芮老师也觉得,我如果想把后续研究做得更贴近产业、真正走向落地,那么加入联想这样的团队会是一个很好的平台,于是我就进入了联想研究院,开始了下一阶段的探索。
在这个过程中,王茜莺博士对我的影响也非常大。她本身就是人机交互领域的专家,研究方向跟我高度一致。她在斯坦福完成人机交互学习后回到业界,牵头搭建了一个很有创新性的机制——TSIP(技术战略与创新平台),也就是把“技术战略”和“创新孵化”打通的一套平台化体系,她是这个平台的负责人。
这段经历给我两个特别重要的启发。
第一是“国际化的学术视野”。人机交互这个领域,国内外的发展节奏过去差异挺大的(现在在逐渐缩小)。在国外,HCI 在计算机社区里是非常大的一个研究共同体,因为它能做的事情太多了;而在国内,当时更多还是集中在解决已有交互触点的技术瓶颈,大家很少去主动创造新的触点、新的交互形态。茜莺老师把很多前沿的理念和方法带回来,也给了我更多参与国际交流的机会:比如投稿顶会期刊、参加国际学术会议。在这个过程中,我也在不断完成“学术表达的国际化转换”。再加上联想本身就是一家高度国际化、非常开放的企业,这种环境对我的成长帮助很大。
第二个启发更“落地”——也就是:HCI 研究在业界到底怎么生存、能为公司和产品真正做什么。茜莺老师当时把团队能力拆得非常清晰,基本上形成了一套可运转的闭环。
-
一块是技术战略与基础管理:做前瞻布局、资源与预算的统筹,也相当于研究组织的“中枢系统”。
-
一块是用户研究:由心理学、人因工效等背景的同学为主,负责洞察用户、理解真实需求。
-
一块是设计:从概念设计到精细化设计,往往以“搭档”的形式进入具体项目,把洞察转化成方案。
-
还有一块是技术与工程:好的体验和想法必须快速做原型、做验证,才能知道能不能达到预期,这里面需要很强的工程支撑。
这套框架让我第一次非常直观地意识到:HCI 不是单点能力,而是一整套可以在产业里“交付价值”的综合体系。
另外还有一个很有意思、也很有代表性的案例:那段时间茜莺老师也在做内部孵化,相当于内部创业,重新孵化了一个教育品牌。这个过程给了我非常鲜活的样本——如果我们真的要把一个新想法变成新产品,要怎么组团队、怎么定方向、怎么一步步研发迭代;怎么和领域专家共创;以及最后怎么推动它走向商业化落地。这些都是我在联想四年里学到的、特别实用的东西。
唐小引: 听起来你在联想实现了“仰望星空”和“脚踏实地”的结合,把这套能力真正修炼出来了。
龚江涛: 是的。但我也想说,这个过程其实挺不容易的。很多时候,一个人决定改变,背后往往是先感受到某种“痛苦”,才会真的下决心去调整。
比如我从清华去联想,最开始就很痛苦:当你说不清自己的研究到底“价值在哪里”、怎么向外界解释它、怎么让它真正产生价值时,会非常焦虑。后来我在很多师弟师妹、以及更年轻的学生身上,也经常看到类似的状态——很多人一路读到博士最后,反而更迷茫,因为和社会多少有点脱节。博士本身又是一个很难、很痛苦的爬坡过程,爬完以后如果发现并没有“前途一片光明”,落差感会更明显。 随着博士培养规模越来越大,这种困惑其实会更普遍。所以我一直觉得,研究工作如果能和产业形成更好的连接,你会更容易找准自己在社会中的位置,也更不容易陷入长期的迷茫。
到了联想以后,研究的产业化又是另一种“痛苦”。
研究早期本质上是投入,是成本,短期很难直接看到收益。那你怎么立项?怎么说服业务方、赞助方愿意支持你做这件事?这里面有大量沟通、论证、准备工作,本身就是很大的挑战。
等项目做出来之后,真正落地又会遇到新问题:你立项时的假设、条件、预测,到了落地那一刻往往会变;外部环境也会变;合作方的需求也可能变。于是你就得重新校准——这件事还能不能按原计划推进?要不要改路线?这些都是新的难题。
尤其当你做的是新产品、新模式,失败率往往远高于成功率。好在做研究的人“抗打击能力”一般还可以——每篇论文投稿,你都会面对来自全球同行的审稿意见和质疑,这种训练反过来让你更习惯在批评中迭代自己。所以经历过这一套之后,我对“如何把一个研究想法在产业里孵化出来”这条链路,以及中间可能踩的坑,就有了更系统、更真实的认识: 既包括我自己踩过的坑,也包括我观察同事、前辈们如何解决问题的经验。
也正因为这样,心态会更稳定。联想几年之后,我不太会再陷入那种“我不知道该做什么、也不知道未来价值在哪里、也不知道怎么去说服别人”的状态了——这些关键障碍基本都被扫清了。
然后时间来到更大的背景:人工智能浪潮一波一波地往上卷。其实我 2018 年去联想时,就已经开始跟 AI 做结合,但当时我仍然觉得那只是冰山一角,后面一定会有更大的浪潮。
正好那时候亚勤老师从业界回到清华,再次创业,创建了智能产业研究院(AIR)。我一下就意识到:这是一个很重要的机会点——如果能在一个专注做 AI 的机构里工作,我就能更近距离地参与这波浪潮,也能把自己的兴趣和能力投入到更关键的问题上。
来到 AIR 的这几年,我也确实有很强的体感:我做的很多事情,基本都是社会最关注的方向——比如自动驾驶、机器学习、大模型、智能体等等。机会特别多,也让我获得了更前沿的 AI 训练,对产业发展方式的理解也更深入,同时也能从自己的视角做出一些实际贡献。
坦白说,在来 AIR 之前,我整体还是偏人机交互,对算法本身关注没有那么重。但在 AIR 这个环境里,你会看到同事们每天都在讨论新算法、讨论问题和改进方案。耳濡目染之下,我也开始重新思考:原来从我的视角出发,我也可以用 HCI 的方法论和流程,去推动一些更底层、更源头的 AI 创新 ——这是我在 AIR 这段经历里非常大的收获。
具身认知增强与驾驶:用人类脑电波教 AI 开车
唐小引: 我看到你现在的研究方向重点放在“具身认知增强”上。我其实是第一次听到这个说法,有点困惑。因为过去大家聊 AI 的“认知”,更多还是偏语言、思维、符号系统这一套——比如维特根斯坦那句“语言的边界就是世界的边界”,讲的是认知世界,而不是物理世界。但“具身”又强烈指向跟真实物理世界的互动。就像大模型正从数字世界走向物理世界一样。能不能先请你给大家梳理一下:具身认知增强这个方向在国内外大概发展到什么阶段?然后再讲讲你自己主要在攻哪一块。
龚江涛: 这个问题问得很到位。其实过去很长一段时间,相关研究基本是两条平行线:一条是做语言模型、NLP、大模型的,更多在软件和互联网的“数字世界”里;另一条是做硬件、机械、自动化、机器人这套工程体系的,更多在“物理世界”里。两拨人各自很强,但确实泾渭分明,很多时候甚至彼此不太关注对方在推进什么。
这几年随着 AI 能力快速外溢,两边开始明显“汇流”。做大模型的人会想:既然在语言层面已经证明了通用能力,那能不能把这种能力迁移到物理世界,让模型不只会说、会写,还能“会做”;而机器人这边也会想:过去机器人更多是在解决相对固定、规则明确的任务,很多时候更像高级自动化。那现在 AI 这么强,是不是有机会让机器人真的更像人一样,能理解、能适应、能学习?
但实话说,这个融合目前还在起步阶段,挑战非常硬。最核心的两点:
第一,物理世界比语言世界复杂得多。 语言本身就是对现实的高度抽象和压缩,我们讨论的很多东西已经被“提炼”过了;可一旦回到真实环境,信息是多模态、冗余、连续变化的,还牵涉动力学、能量、关节控制等一整套约束,变量更多、耦合更强。
第二,物理世界“真的会出事”。 在数字世界里,最极端也许就是误删文件、甚至“删库跑路”;但在物理世界里,机器人是钢铁躯体,动作一旦不当就可能伤到人。所以你会发现,机器人一启动,旁边的人会下意识往后退——因为它的风险是真实存在的。这也是具身智能绕不开的门槛:安全、可靠、可控。
那我自己的切入点,其实是反过来问一句:人到底是怎么把这件事做好的?你越做具身相关研究,越会感叹人这个系统有多精妙——能耗低、学习快、恢复能力也强; 但你真要把这些能力搬到机器人身上,会发现每一步都很难。
我们在实践里经常遇到一个“看似矛盾”的问题:很多机器学习方法只能学习“已经发生、看得见”的东西——也就是事情出了问题,你才有数据去教它怎么改。但现实里真正决定系统安全性和鲁棒性的,往往是那些发生概率很低、但代价很高的关键场景。比如驾驶这种任务,大多数时候路况是正常的,数据里也就几乎都是“正常驾驶”。模型当然很快能学会正常部分,可一到少量的临界情况,就容易掉链子——而偏偏这些情况最要命。
我自己的理解是:人之所以总体事故率低,很重要的一点不是“事后补救”,而是“提前预判”。我们一直在做风险预测和规避 ——很多危险其实在发生之前,就被我们绕开了。所以我做“具身认知增强”,很大一块就是想把这种能力交给机器:让它不只是会执行动作、会完成任务,还能识别风险的苗头、提前调整策略,把问题消解在真正发生之前。
如果机器人能学会这种“预测—规避”的能力,那么哪怕训练数据里极端事件很少,它也能从大量的日常数据中学到更可靠的安全行为,学习效率和最终效果都会明显提升。
唐小引: 正好也请您聊聊你们团队的新成果——E³AD,首次尝试把人类驾驶时的认知信号,直接用来增强端到端自动驾驶的规划任务。 我读论文的时候还挺惊讶的。用大白话讲,这是不是有点像“用脑电教 AI 开车”?它到底解决了传统端到端自动驾驶(E2E-AD)的哪些痛点?
龚江涛: 可以这么理解,但我们更想表达的是:把“人是怎么提前预判风险的”这件事,变成机器能用的信号。
我们之前提到过一个核心动机:人之所以很多时候“没出事”,并不是因为事后处理得有多好,而是因为提前感知到风险苗头,就先做了规避动作,让风险根本没发生。相比之下,机器如果完全靠在环境里“自己跑、自己撞、自己学”,遇到风险的概率会高很多。
问题在于:这种“提前预判”的过程,怎么被采集出来? 最直觉的方式是让驾驶员自己说——比如让他随时报告:你现在觉得危险吗?接下来会不会有风险?但我们做过测试,发现这非常难。很多时候,司机其实已经下意识把脚从油门移开,甚至准备去踩刹车了,但他并不会、也很难用语言准确描述“我正在进入风险预警状态”。
于是我们同步采集了脑电信号。一个很有意思的现象是:在驾驶员自己还没意识到、也说不清楚的时候,他的脑电反应已经出现了明显变化——它能更早地“暴露”出大脑对潜在风险的预警。这就给了我们一个入口:把这种隐式的预警信号,转化为对自动驾驶规划更有用的监督信息。
唐小引:那为什么选脑电?从脑科学的角度,它到底在测什么?
龚江涛: 简单说,脑电反映的是大脑神经活动的“电信号痕迹”。大脑里神经元之间通过突触通信,本质上伴随电活动;同时大脑作为生理组织,也会产生血流、血氧等变化。所以神经科学里有很多不同的观测手段,用来间接捕捉大脑的工作状态。
我们可以打个比方:如果你想知道“北京城里的人都在干什么”,脑电更像是在北京上空放了一堆麦克风,去听整体的“声音模式”,再反推大家的活动状态;而像 fNIRS、fMRI 这类偏血流/血氧的技术,更像是看“哪片区域的能耗和供给在变”,用资源变化去推测哪些区域更活跃。
当然,这些手段都不是“读心术”,而是用可观测信号去捕捉规律,再去推测它可能对应的认知状态。
唐小引: 那你们用的是侵入式还是非侵入式?
龚江涛: 我们用的是非侵入式脑电。
唐小引: 接着我想问更“工程化”的部分:采集到的认知数据,怎么结构化地融合到端到端自动驾驶训练里?它的数据流大概是怎样的?
龚江涛: 这个问题很关键。我们之所以选择端到端自动驾驶,而不是传统的模块化方案,主要有两个考虑。
第一是计算机系统层面的趋势。早些年算力有限,大家更倾向于模块化:先感知、再预测、再规划、再控制。模块化当然清晰,但它会带来信息瓶颈——上游把丰富的原始信息压缩成少量中间结果传给下游,细节丢失后,下游可能在关键时刻漏掉重要线索。小偏差一路往下传,最后可能放大成大错误。
而端到端的路线,虽然内部也会有层级结构,但它能更充分地保留和利用原始信息,整体稳定性和性能上更有潜力。从技术演进角度看,系统越往后发展,往往越趋向端到端。
第二是从人脑研究范式出发。早期我们也曾经更倾向“模块化”理解大脑:这个区域干什么、那个区域干什么,信号一站一站传递。但越来越多研究发现,大脑的分工并没有那么“干净利落”,更多是全脑协同:既有自下而上的信息流,也有目标驱动的自上而下整合。也就是说,当你在执行驾驶任务时,你很难把“纯感知信号”从“决策、意图、预期”里完全剥离出来。
在这种情况下,如果我们以“完整任务”为单位去观察大脑协同,反而更接近真实工作方式,也更有利于提升信噪比——而信噪比,恰恰是脑科学研究里非常现实的瓶颈。
所以我们提出了一个对齐思路:让“人脑的任务过程”和“机器的任务学习”都尽量用端到端的方式对齐,再做融合。 结果也验证了这个逻辑——第一次用端到端范式去融合时,效果比我们预想得更好,也增强了我们继续走这条路的信心。
另外,在更深入地做脑信号结构化分析之后,我们也看到:一些传统“模块化”的认知观点并没有完全失效,它反而可能帮助我们在端到端框架之上做更精细的建模,进一步提升效果。
唐小引:你们做了多层次的融合对比:在特征层、规划层等不同阶段分别融合,性能差异还挺明显。这个对比结果说明了什么?对未来的模型设计有哪些启示?
龚江涛: 对,其实我们前面也铺垫过一点。最后的结论很清晰:把人类认知信号和自动驾驶系统都对齐到“任务层”,也就是最终的规划与决策层来做融合,效果最好。
原因在于,大脑在真实任务中并不是“感知归感知、决策归决策”这么干净地分开。很多所谓的“感知相关信号”,其实已经被后面的目标、规划和决策状态影响了。换句话说,如果你把脑信号硬塞到早期的感知阶段,它里面混着的并不只是感知信息,还夹杂了“我打算怎么做”的成分,反而容易出现错配。
而我们实验也印证了这一点:越是贴近端到端任务闭环、越是对齐整体规划目标的融合方式,收益越稳定、效果也越好。 这对未来模型设计的启示就是:与其纠结在某个“模块点位”拼接,不如更多从“任务对齐”出发,考虑融合发生在什么层面最合理。
唐小引: 接着聊聊具身认知在这里面的价值。第一点,引入具身认知到底带来了哪些“数据标注”本身给不了的额外信息?
龚江涛: 我觉得这是具身方向最有意思、也最关键的点。
你看,AI 走到今天,技术当然进步很大——网络更深了、参数更多了、算力更强了。但从研究范式上讲,主流路径一直很像:有数据、有真值(标签)、有模型,用标签去监督模型更新。 这个范式背后其实有个默认前提:人类能够把“什么是对的”用显式的方式讲清楚。 因为很多真值最终还是靠人标出来的。
可一旦进入具身任务,这个前提就经常不成立。很多能力是“操作性技能”,比如控制身体、预判风险、下意识规避危险——这些东西往往很难被语言准确描述。你让一个老司机解释“我刚刚为什么松油门、为什么准备踩刹车”,他可能自己都说不清楚;但他的身体和神经系统其实已经做出了反应。
所以我的理解是:当语言说不清楚的时候,身体会用信号“自己说话”。 尤其是由大脑皮层、脊髓等神经系统共同调控的那些过程,往往在动作发生之前,就已经出现了可观测的隐式信号。
这就带来一个新的可能:我们不仅仅记录“他最后做了什么动作”,而是把更早的阶段——他在评估环境、犹豫、预判、准备采取措施时的隐式信号——也采集下来,作为一种更深层次的监督信息。对具身智能来说,这是一类传统标注很难提供、但可能非常关键的数据来源。
唐小引: 我之前听清华心理与认知科学系主任刘嘉老师提到,人类很多动作更多由小脑控制,而大模型更像是在做“大脑皮层”的事。具身任务比如开车,往往需要大小脑高度配合。你们在研究里对这个问题的观察是什么?
龚江涛: 我非常赞同“大小脑协同”这个判断,而且具身任务很多确实不只是小脑的事。
如果是偏“纯小脑”的能力,比如稳定控制、保持平衡、走路这类相对明确的控制问题,其实从自动化到今天,控制理论和工程体系发展得已经很成熟了,单独拿出来不一定那么难。
具身智能真正的瓶颈,往往在于:小脑式的稳定控制,要和大脑皮层式的感知、理解、规划、应对突发情况整合起来。 只要环境变得动态、复杂,需要识别、需要推理、需要处理长程目标,或者任务里存在大量不可预期的意外,就会遇到各种极端情况、边界场景。
所以我觉得,研究大脑在进化过程中如何被具身经验塑造、以及大脑和小脑如何形成有机协作,对我们今天构建更可靠的“大小脑协同型具身智能”,是非常关键的一条路径。
脑电大模型:让脑信号从“玄学”走向通用
唐小引: 再谈谈泛化验证。大家也很关心不依赖脑信号的推理稳定性。也就是说,在推理阶段只用视觉等输入,模型还能否保持“类脑认知”的能力?实际测试中这种泛化效果稳定吗?能举个具体例子吗?
龚江涛: 这个问题很核心,也确实跟技术进步直接相关。
我们这次工作里引入了上交大的 Large Brain Model(大脑大模型,简称 LaBraM),它对脑科学数据的泛化非常关键。因为脑科学天然有两个难点:一是信噪比低;二是个体差异大。要从不同人、不同状态里提炼出共性,把个体差异“消融”掉,往往需要更大规模的数据和更强的模型能力。
我们也在和智源研究院雷博老师(智源研究院研究员)所在的大脑大模型团队合作交流,这块进展非常快,大家交流起来都很兴奋。
举个相对直观的例子来说明“大脑大模型”现在的能力边界:过去脑电、血氧这类信号基本是两条路线,各做各的。但在大脑大模型的框架下,它们有机会被映射到同一个“脑表征空间”里,指向同类的脑活动,这是一个很重要的变化。
再比如一个经典任务:用脑电去预测你正在看什么。这个任务很适合用来检验鲁棒性。两三年前,这件事还很“玄学”,结果随机性很强;但现在已经能做到在大类、轮廓结构等层面相对稳定地解码出来。这说明什么?说明脑信号的可用性、可迁移性在变强。
回到我们的问题:如果脑信号能更稳定地表达“风险预警、注意力变化”等认知状态,那么我们就可以在训练阶段用它去“教会”模型——哪些视觉线索对应潜在风险、哪些场景需要提前规避。推理阶段即便不再输入脑信号,模型也能把这种能力迁移到纯视觉输入上,泛化就更稳定。
唐小引: 我在准备采访时也跟一些做具身的朋友聊:现在居然已经有“脑电大模型”这种路线了。 以前我们谈具身更多聚焦多模态、世界模型、空间智能这些。这个领域其实发展不短了,但很多人不太了解。你觉得过去是大家之间存在壁垒,还是说现在因为都奔着具身智能走,才开始发生交叉融合?
龚江涛: 你说得很准确:过去确实更像“各走各的路”。
也不能说完全没有交集。人工智能研究里会偶尔借鉴认知科学的一些观点,做一些“脑启发”的设计。但过去的一个现实问题是:脑科学、认知科学的研究范式很难规模化泛化。不同实验的刺激材料、流程、分析方法都不一样,结论有时连领域内部都未必完全一致。大家都是在尝试打开大脑这个黑箱:先采集数据,再提出假设;或者基于假设设计实验去验证。
所以计算机科学想从这里借鉴时,经常只能借到“概念层”的东西:那些更通俗、更好传播、更符合直觉的理论会先被引入。但原始的大脑数据长期没有真正大规模进入 AI 社区。
中间就会出现一种“隔了好几层翻译”的情况:认知科学家先抽象一遍,AI 研究者再理解一遍,最后做出来的系统到底跟大脑有多像,其实很难说清。
而现在的变化是:随着算力、模型和数据处理能力提升,我们终于有机会绕开多轮“概念翻译”,直接在原始数据层面建立连接。尤其当我们把两边都放到“任务对齐”的框架下,让输入输出在同一类任务上对应起来,就更有可能让神经网络自己从复杂数据里去芜存菁,学到更本质的规律。
这个趋势不只发生在脑科学与 AI 的结合上,其实在 AI for Science 的很多方向都类似:过去是科学家从数据里总结公式和定律,我们做系统时再去“引用定律”;现在很多时候可以直接让模型从原始数据里学习,反而效果更好——这是一个更底层的范式变化。
终局猜想:具身智能的未来是“认知伙伴”
唐小引:聊到“终局”,大家现在看马斯克做脑机接口,会觉得很不可思议。你觉得这会成为未来的终局吗?
龚江涛: 我个人是相信这个趋势的——技术进步确实可能绕开很多屏障,让我们更稳定地获取原始认知信号,从而更直接地完成任务。
但这并不意味着每个人未来都要“配一个脑机接口”。现实里,技术怎么落地、以什么形态落地,未必和想象完全一致。更重要的是,“所想即所做”如果不加约束,会带来风险和伦理问题。
不过从方向上讲,让系统更接近“所想即所得”、更自然地读懂人的意图,这很可能是一个长期的演进方向。
唐小引: 那顺着这个方向,你能不能描绘一下你理解的具身智能未来?或者说,你心里的 AGI 是什么样的?
龚江涛: 我们现在更愿意把它理解成一种“认知伙伴”。
我们做 AI、做智能体,最终还是希望让人类生活变得更好。要做到这一点,它必须在两件事上持续变强:理解人类,以及和人类协同。
而从逻辑上讲,如果 AI 和人类各用一套完全不同的思维机制,社会协作成本会变得非常高——沟通成本、对齐成本都会上升。所以我更希望未来的智能体,在核心机制上尽可能和人类共享某些“可对齐”的逻辑框架,这样它才能真正融入人类社会,而不是只在自己的系统里自洽。
唐小引: 回到当下的通用脑电大模型,你们论文里也提到表现已经很不错了。为什么会选择上交大团队的 Large Brain Model?背后应该也有合作和评估过程,能分享一下吗?
龚江涛: 这件事确实挺有意思。我一直在北京工作,但我也得承认,上海这边整体的 AI 氛围和生态非常活跃,很多方向推进得很快,而且合作方式也比较开放,容易产生新东西。
当时我们对市面上几个主流的脑电大模型做过评估,大概筛了三套重点方案。后来我们和上交大负责的老师做了线下深入交流,综合他们的数据量、已验证任务的覆盖面以及工程实现的完整度,最后选择了他们的 Large Brain Model。引入之后,确实带来了比较明显的性能提升,我觉得这是一个比较成功的选择。
唐小引: 那除了上交大的 LaBraM,还有其他不错的脑电大模型吗?
龚江涛: 有的。当时我们做选择的时候,智源研究院那边的相关模型还没完全出来。后来我们在去年年底也有交流,接下来我也希望能把智源这边纳入评测范围,做一个更系统的对比测试(benchmark)。
唐小引: 也就是说,底层模型层面可能会有多个选择来支撑?
龚江涛: 对,可能会做对比评测。但最终在具体系统里,往往还是会“择优选一”,更偏非此即彼的路线。
跨范式研究的挑战:当“允许试错”遇到数据采集的深坑
唐小引: 你刚才讲了很多让人兴奋的点。那我也想问问“趟坑经历”——这种跨范式的研究,通常不会一路顺利。你印象最深的挑战是什么?是技术层面的,还是协作层面的?最后又是怎么解决的?
龚江涛: 我觉得最大的挑战,往往从启动立项那一刻就开始了。 你要推动一种“新范式”,在一开始还没有足够实践经验、也没有完全跑通闭环的时候,要争取资源支持非常难。现实一点说,我们目前很多科研运行机制,对“失败”是缺少预案的——很多项目能立项,往往是因为你几乎已经验证到八九不离十了。
我们之所以能把这件事启动起来,是把它嵌入到一些更容易获得支持的目标里:比如自动驾驶评估、一些更灵活的纵向经费支持等。通过这种方式,才有机会孵化一条“以前没人走过”的路。
唐小引:那这件事最初的灵感怎么来的?以及在 AIR 内部沟通、对外争取合作伙伴和经费时,大家的反馈是什么?
龚江涛: 我确实很幸运。和亚勤老师沟通我过往经历时,我提到过我们在医学院做触觉与脑认知研究的经验。亚勤老师当时的判断是:驾驶本身就是强认知活动,“老司机的大脑到底在做什么”这件事很值得先把数据采下来。哪怕短期不确定能不能直接影响自动驾驶算法研发,也值得先做探索。能拿到他的支持,是项目启动的关键因素之一。
第二是合作伙伴的支持。我们当时和百度这边一起承担了一些国家课题。在我们提出方向调整后,也做了汇报交流。百度整体态度很开放:他们可能短期看不到明确落地路径,但并不反对我们在国家项目框架下做探索。更重要的是,在大的项目里,他们确保主线目标可控,同时也给我们留出了一块“允许试错”的空间和经费,用来做设备采购、实验组织和数据采集。
唐小引: 那在“允许试错”的部分里,有哪些真的“翻车”了?又有哪些是出乎意料地成了?
龚江涛:最典型的“难”,其实在数据采集。
我们当时专门设计了一条包含多种道路形态的采集路线,尽量覆盖主辅路切换、掉头、复杂交互等场景,并且选择偏晚高峰的时段,让老司机更可能遇到丰富的交通冲突与博弈。
采集时,驾驶员需要同时佩戴脑电设备和眼动设备,车内还要布置多视角摄像;我们前后排都安排了乘客,其中乘客还佩戴心率、皮电等生理传感器,方便从“乘客视角”捕捉他对风险的感受变化。这一整套系统搭建和稳定运行,比我们预想花了多一到两倍时间;后续的数据清洗、对齐、建库、分析,也远比实验室预实验更耗时。
不过好消息是,尽管过程慢、投入大,但最终效果确实让我们觉得很“值得”。
唐小引:那从技术判断上总结一下:脑电会不会成为未来自动驾驶的主流信号?以及除了脑电,还有哪些生理信号也可能融合进来?
龚江涛: 我更愿意把它看成“第一步”,而且它不只局限于自动驾驶。更广义的具身智能、甚至一些离身的智能系统,都可能从这种范式里受益:我们不一定非要重复走一条老路,而是可以借助人类隐式信号,找到更高效的学习路径。
至于信号类型,和大脑直接相关的,除了脑电,还有 fNIRS 这类血氧信号等。我们自己还做过一个很有代表性的方向:眼动信号。
眼动本质上反映的是注意力分配——而在复杂驾驶场景里,信息极其冗余,模型也非常需要“注意力”去筛选重点。我们把人的注视作为一种先验融合进机器视觉后,发现效果是可观的。更有意思的是:随着模型规模变大,在不同阶段加入眼动先验都能带来相对稳定的提升。
这让我们形成一个直观判断:仅靠显式标注的数据,哪怕数据量不断扩大,也很难完全覆盖人类在真实任务里产生的那些“隐式认知线索”。 把这类线索纳入学习体系,可能是绕不开的一条路。
唐小引: 所以最大的瓶颈还是数据?
龚江涛: 对,核心瓶颈还是数据:采集难、对齐难、建库难、分析难。软件工程本身反而相对成熟。
拥抱开源与未来:大脑其实一直在“说话”
唐小引: 那说到开源。现在大家很关心“完全开源”——代码、模型、权重、数据集都开吗?你们有什么计划?
龚江涛: 我们作为高校科研团队,这项工作是尽可能完全开源的:代码、模型、权重以及数据都会开放。
但也有一部分需要现实约束:自动驾驶场景涉及道路与影像数据,会牵涉隐私与合规问题,所以在图像等敏感数据的访问上,我们会设置邮件申请等门槛,确保合规使用。这主要是由场景本身的特殊性决定的。
唐小引: 现在“开发者”定义也在变——大模型降低了编程门槛,越来越多人可以参与;同时交叉学科也更常见。你作为过来人,对新一代开发者有什么建议?
龚江涛: 我觉得编程会让每个人受益,不管你来自哪个学科。它会让你更理解机器的逻辑,也更懂得怎么把机器当作工具和伙伴去协作。
如果你想更系统地进入计算机领域,还是建议把计算机的基础思想和方法论补齐:数据结构、算法、系统、工程思维这些,能决定你走得稳不稳。好的一点是,计算机学科的学习资源极其开放,自学门槛在很多学科里反而是最低的——公开课、开源项目、资料都很丰富,愿意投入就能学起来。
另外我不太担心“人多会抢饭碗”。真正决定差异的,往往是你的跨学科能力:你能不能在“精”之外,理解一个真实领域的问题语境;能不能和领域专家深度协同;能不能把技术真正落到场景里。交叉学科不是浅尝辄止,而是在扎实基础上,深入理解目标领域,才能把事做成。
唐小引: 最后请你用一句话总结:类脑认知赋能自动驾驶,它对端到端自动驾驶、以及未来 AI 系统设计分别有什么启示?
龚江涛: 我想说的是——大脑其实一直在“说话”。这些隐式认知信号里,可能藏着构建更接近通用智能系统的关键线索; 在理解人类大脑的基础上,我们有机会设计出更能融入真实世界、更能服务人类社会的 AI 系统与智能体。
关于《万有引力》:
这是由 CSDN &《新程序员》执行总编唐小引主理的对话栏目。技术趋势多变,一不留神总担心错过。正在发生的技术事件,对于我们开发者意味着什么?我们面临的诸多困惑从何寻找答案?《万有引力》即志在于此,直面事件与困惑,抽丝剥茧,解读技术真相。
- 栏目定位:一档面向开发者群体,聚焦解读技术真相的对话栏目。
- 视频观看平台:CSDN 视频号、CSDN 网站 & App
- 多形式:文章、视频、音频都会有,持续关注 CSDN 公众号都可获取,欢迎大家关注!
更多推荐


所有评论(0)