【程序员必看】“脑控编程“时代来临？浙大团队实现意念驱动的AI图像编辑技术，代码开源！

浙江大学团队推出LoongX系统，利用脑电、近红外光谱等多模态神经信号驱动生成式扩散模型，实现"意念图像编辑"。团队构建了包含2.4万组样本的L-Mind数据集，实验显示该方法在语义一致性和结构保真度上已接近文本驱动方式。这一技术突破为残障人士提供新交互方式，也为沉浸式创作、虚拟现实和智能医疗开辟新前景。

大靠山

850人浏览 · 2025-12-26 16:06:14

大靠山 · 2025-12-26 16:06:14 发布

#浙江大学团队推出LoongX系统，利用脑电、近红外光谱等多模态神经信号驱动生成式扩散模型，实现"意念图像编辑"。团队构建了包含2.4万组样本的L-Mind数据集，实验显示该方法在语义一致性和结构保真度上已接近文本驱动方式。这一技术突破为残障人士提供新交互方式，也为沉浸式创作、虚拟现实和智能医疗开辟新前景。

近日，浙江大学信电学院董董树荣教授携杭州荣脑科技有限公司，联合浙江大学潘纲教授团队、新加坡国立大学Yang You教授团队、上海AI Lab 张开鹏研究员团队（MBZUAI）等多所高校和研究机构，在神经驱动的图像编辑研究中取得重要进展。相关成果以题为《Neural-Driven Image Editing》的论文被国际顶级会议NeurIPS 2025接收。其中浙江大学夏洁、潘嘉栋博士生为共同作者，浙江大学董树荣教授为共同通讯作者。

01 研究内容

该研究提出了LoongX系统，利用脑电（EEG）、近红外光谱（fNIRS）、光体积描记（PPG）及头部运动等多模态神经信号，创新性地驱动生成式扩散模型，实现真正意义上的“意念图像编辑”。团队同时构建了全球首个多模态神经信号图像编辑数据集L-Mind，包含近2.4万组高质量样本，为后续研究提供了坚实基础。实验结果显示，该方法在语义一致性和结构保真度上已接近甚至优于文本驱动方式，展现出极高的应用潜力。值得指出的是，AI图像编辑已成为学术界和谷歌、OpenAI、Adobe等头部科技公司重点探索的方向。在这一背景下，LoongX的“神经驱动图像编辑”研究不仅展示了技术突破，更将脑机接口与生成式AI的结合推向了国际舞台。

02 数据集突破

浙江大学团队首次构建了全球领先的L-Mind多模态脑信号图像编辑数据集，涵盖近2.4 万组图像与脑电（EEG）、近红外光谱（fNIRS）、光体积描记（PPG）及头部运动信号同步采集样本。这一大规模、真实场景下的脑机接口数据集，为神经驱动的人工智能研究奠定了坚实基础。

L-Mind多模态脑信号图像编辑数据集

值得一提的是，杭州荣脑科技有限公司提供了核心多模态脑机接口设备，确保了高质量的多模态神经与生理信号采集，为该数据集的构建奠定了硬件基础。杭州荣脑开发的一体化便携额叶头环具备2-4通道EEG与 8通道fNIRS同步采集，5-10米无线传输，可同步提取 PPG心率/HRV 与头部姿态，仅35g重。配有PC/手机/平板三端实时数据流显示、存储与分析；支持 LSL、OSC 与外部设备或刺激范式同步。支持与TMS, tDCS, tPBM等调控技术同步使用。面向科研、医疗与人机交互场景，支持快速原型搭建与多学科教学/转化研究。

多模态大脑观测系统

03 图像编辑创新大模型，可插拔结构

研究团队提出了全新的LoongX框架，通过“跨尺度状态空间编码（CS3）”和“动态门控融合（DGF）”模块，将多模态神经信号有效整合，并结合扩散模型实现“意念驱动”的图像编辑。与以往只依赖单一脑电或语言指令的方法不同，该方案真正实现了多源神经信息的高效融合。

LoongX模型框架

04 机理探索

通过系统性的消融实验，团队揭示了不同信号的独特作用：EEG提供了最直接的高层语义意图，fNIRS增强了鲁棒性与任务相关性，PPG与运动信号则补充了情绪与注意力状态。特别是枕叶（Oz）通道在图像感知上贡献显著，而前额极区（Fpz）则与任务启动和注意调控密切相关。这些发现不仅提升了模型性能，也为理解脑信号在复杂交互中的机理提供了实证依据。不同编辑类型的效果也呈现出显著差异：神经信号在纹理调整、背景替换、物体操作等低层次编辑任务上表现突出，而文本指令在高语义、复杂修复任务上更具优势；两者结合时，能实现最全面、最精准的编辑效果。

多模态脑信号图像编辑机理示意图

05 实验结果与价值

实验表明，LoongX 在语义理解和编辑精度上已接近甚至超过文本指令驱动的方法，并在结合语音信号时表现最佳。这意味着未来用户仅凭“脑信号+简单语音”即可完成复杂图像编辑。该成果不仅为残障人士等群体提供了全新的人机交互方式，也为沉浸式创作、虚拟现实和智能医疗开辟了新的应用前景。

06 社会影响力

该研究成果在学术界和产业界引发广泛关注。论文预印本上线后，即在国内外等平台快速传播，其中包括Pramod Goyal 等国际学者的转发与热议，引发数万次浏览量，成为近期脑机接口与生成式AI结合研究的焦点话题。在国内外社交媒体上，网友普遍认为“这项研究让未来的人机交互方式充满想象力”，并对其在无障碍创作、沉浸式体验、数字孪生与智能医疗等方向的应用前景表达了强烈兴趣。学术类科普账号和AI研究社群也积极报道，进一步放大了其学术影响力与社会关注度。整体来看，LoongX不仅是一次学术突破，也推动了公众对脑机接口+生成式AI融合前景的认知与讨论，展示了我国科研团队在前沿交叉领域的国际竞争力和引领作用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述