大模型、VLA模型、世界模型:谁代表通用人工智能未来?“智能仿生学”视角的分析
前面在解析Palantir的过程中,笔者深刻意识到基于仿生人类智能的视角理解通用人工智能的重要性。结合中国传统哲学的“十二舍”理论,尤其“眼耳鼻舌身”与“意”之间关系的启发,初步明确了“感知与执行功能层(“眼耳鼻舌身”的仿生)+控制中枢(“意”的仿生)”的通用人工智能基础架构。为辨析当前大模型、世界模型、VLA模型“通用”之争提供了基本的理论标尺。明确了在机器学习领域,正在从学习知识(模仿继承人类
前面在解析Palantir的过程中,笔者深刻意识到基于仿生人类智能的视角理解通用人工智能的重要性。并在此基础上提出了人工智能认知框架的三层结构:
-
智能生成的客观条件
结合中国传统哲学的“十二舍”理论,尤其“眼耳鼻舌身”与“意”之间关系的启发,初步明确了“感知与执行功能层(“眼耳鼻舌身”的仿生)+控制中枢(“意”的仿生)”的通用人工智能基础架构。为辨析当前大模型、世界模型、VLA模型“通用”之争提供了基本的理论标尺。Palantir解密:“本体”的局限
-
智能生成的动态过程
明确了在机器学习领域,正在从学习知识(模仿继承人类智能产出结果)向学习学习方法(探索人类智能形成过程)进化。前者构成“数据驱动”的前人工智能时代,后者则是“学习驱动”的后人工智能时代的技术根基。Palantir解密:李飞飞与强化学习之父对大模型的批评有何不同?兼论“本体”的哲学本质
-
智能实践的应用闭环
人工智能进入核心决策环节,意味着其对人类智能的仿生模拟已达到关键成熟阶段,这也是“人工智能+”从概念验证迈向规模化落地的核心标志。随之而来的,将是“智能体”的爆发式增长与社会性渗透。这将引发一个前所未有的社会课题:如何构建与智能体共生的社会结构与管理体系。
本篇在此基础上对“智能仿生学”做明确定义,并进一步示范该理念框架的实际应用:从视觉/听觉意识的产生过程探讨对智能工程实现的启发。同时基于智能仿生学理念的评估标准,分析大模型、VLA模型、世界模型谁更能代表未来。我们的结论是——世界模型。
智能仿生学视角与主流视角的区别
当前以美国为核心的人工智能研究,其本质是计算机科学与还原论思想在模拟生命智能上的延伸,而非构建植根于不同哲学本体的新智能形态。在美国AI领军人物的论述中,可以发现他们的理论参考主要集中在进化论与心理学:进化论为其设定了智能演进的认知边界,心理学则为工程实现提供了具体的行为建模依据。
智能仿生学则与此不同,它的立足点是综合人类对“智能”认识的总体成果(包括哲学、生物医学、计算机科学、系统工程等多种学科),以建立实现通用人工智能的工程方法论。中国历经几千年发展沉淀的文明成果,为我们提供了极为丰厚的理论土壤。在前面Palantir解密系列文章中我们已经举了不少例子,包括:
-
认知体系层面,最早可追溯到春秋战国时期的“九窍十二舍”等思想,系统涵盖了智能的生理基础、功能分化与整体运行逻辑,为“智能仿生学”提供了完整的认知框架。
-
建模逻辑层面,汉字构造中象形、指事、会意、形声与“眼耳鼻舌身意”的认知结构一脉相承,形成天然的符号化认知系统;《易经》所蕴含的数理结构与象征体系,也为建模复杂系统提供了原型启发。
-
学习模拟层面,诸子百家对“动中学”等学习方式的深刻论述,以及近代在对Palantir“本体论”背后的绝对真理幻想进行批判发展中所形成的《实践论》哲学成果,共同为理解智能在现实中的生成与演进奠定了坚实根基。
智能仿生学视角强调整体性和生成性,主张从本源内核出发进行体系化构建,追求感知、决策与行动的紧密耦合:
一是架构上遵循类似“榫卯”式的有机咬合与内在统一,强调模块间的动态协同与体系自洽,而非“乐高”式的外部拼接与简单堆叠;
二是技术上重在探索人类认知内核及其循环机理,认为模拟智能在环境中“生长”的过程,远比让机器继承人类已有的知识成果更为根本;
三是工程实现上以通用模型为核心,构建完整的“感知-决策-行动”智能闭环,并最终形成一个能在与环境交互中不断学习、持续演化的智能系统。
智能仿生学致力于系统开发人类文明的认知富矿,以“天人合一”的宇宙观为基底,深入探索人类智能存在、演进与现实化用的内在循环机理,而非局限于机械的生物解剖与自然物理观测、或在部分场景点缀式借用哲学等其他学科概念。这一路径在应对当前人工智能基础研究的关键挑战中有两大优势:
一是规避“盲人摸象”认知困境。当前虽然不断涌现大量碎片化启发,却在智能本质、通用人工智能界定以及机器学习未来方向等根本议题上陷入难以调和的理论分歧,这本质上是哲学理论基底缺失所导致的。
二是构建更具前瞻性的工程方法论参照系,能够将视野延伸至更广阔的终局图景。例如,从人的社会性出发,探索即将面临的AI“社会化”“文明化”课题;从最高等智能生物——人类——的智能运行机理出发,推演智能工程架构的终极范式。
第一大优势前面已经有所体现,接下来我们以人类视觉系统的生物机理为例,具体分析其可能为智能工程实现带来哪些启发。
视觉意识的产生
视觉信息的处理始于视网膜。当光线投射到视网膜上以后,视网膜上的第一层神经元(感光细胞)将光能转化为电信号,通过突触传递给第二层神经元(双极细胞)。双极细胞对这些信号进行初步整合与特征提取,并增强其对比度,随后传递至第三层神经元(神经节细胞)。神经节细胞的轴突汇聚成视神经,如同一条高速数据电缆,将经过编码的视觉信息传输至大脑。
信号进入大脑后,首先到达信息分拣中心——丘脑。丘脑对信号进行整理筛选后精准投递到初级视觉皮层(V1区)。V1区负责解码图像的基本元素,如边缘、朝向与运动方向。随后信息被分流至两条并行的高级处理通路——腹侧流和背侧流,分别负责识别对象(基于语义,识别“是什么”)和空间定位(基于空间关系,识别“在哪里/怎么做”)。
这些被分解处理的视觉特征,在大脑高级区域中被重新整合,并与存储的记忆、经验与上下文信息相结合。大脑会主动“预测”并填补视觉场景中的缺失部分,最终将这些并行处理的结果统一为一个稳定、立体且充满意义的视觉感知。同时大脑会不断发送指令指挥眼睛肌肉。以主动追踪和捕捉清晰的视觉信息,大脑和眼睛之间的协调,形成一种充满动态反馈的循环系统。
举例来说,当你“看到”一个朋友在马路对面朝你招手时:
-
初级视觉皮层(V1) 只处理了他形象的线条和轮廓。
-
高级视觉皮层将其识别为“一个人”和“挥手”的动作。
-
大脑高级区域开始全面工作:
-
前颞叶从记忆库中调取语义信息,认出她是你的“朋友张三”;
-
海马体随之唤起了你和他上次见面的愉快记忆;
-
杏仁核为这个感知添加了“开心”的情绪标签;
-
顶叶负责空间定位,判断他与你的距离和方位;
-
前额叶作为指挥中心,综合所有信息后做出决策“我应该过马路去和他打招呼”,并规划行动步骤。
值得注意的是,基于生物解剖与医学研究揭示的视觉意识产生过程,在相当程度上验证了中国传统哲学中“意”控制主导“眼耳鼻舌身”形成“色声香味触法”六觉的核心理论,这一认知框架历经数千年仍展现出超强的结构性洞见。
与此形成对比的是现代心理学家霍华德·加德纳提出的“多元智能理论”。该理论将智能分为语言、数理逻辑、空间、身体运动、音乐、人际、自我认知及后来补加上的自然认知等八种相互并列的智能。虽然将人脑的功能做了细分,但又少了嗅觉和味觉,也没有体现控制中枢(大脑)与感知执行层(眼耳鼻舌身)之间的系统性架构和主从关系,无法解释智能的整体性与协同机制。
视觉意识产生过程的启示
从以上视觉产生过程的描述中,我们可以看到一条清晰的“智能流水线”,其层次化、模块化的分工模式显著区别于难以追溯的“端到端黑箱”模型:
-
低级处理层:由专用模块处理原始信号(如图像像素、音频波形),提取基础特征(边缘、角点、音素)。
-
中级处理层:接收并整合基础特征,识别出有意义的模式(对象、动作、场景等)。
-
高级处理层:在感知基础上进行语义理解、关系推理与情境关联,形成对外部世界的整体认知。
高级智能实现所依赖的核心模块包括:
-
动态、可关联的记忆系统,包括海马体(情景记忆的编码与提取)、杏仁核(情绪记忆强化)、基底神经节(程序性记忆与习惯形成)以及颞叶外侧皮层(语义记忆与物体识别)等,共同构成一个可关联、可演进的记忆网络。
-
空间感知和运动协调系统,以顶叶为核心,整合多种感觉信息,构建空间表征,并参与运动规划与执行,支撑个体与环境的实时互动。
-
语义处理与认知控制系统,颞叶负责听觉处理、记忆存储和语言理解;额叶作为高级认知中枢,主导决策、计划、行为抑制及语言生成。两者协同工作,是实现复杂认知与行为控制的基础。
由此,仅从智能中枢的构成来看,我们可以得出一个精炼的类比:
-
大模型主要模拟了颞叶的语义理解、知识存储功能,以及额叶的逻辑推理、语言生成等部分高级认知功能。它是一个强大的“思考与对话脑”,但缺乏与物理世界连接的“身体”和“空间感知能力”。
-
世界模型则在此基础之上,显著强化了对顶叶功能的模拟。它试图构建智能体对物理世界的内部表征,理解物体在三维环境中的关系、动态和物理规律,从而实现了从“纯认知”向“具身认知”的关键一跃。
-
VLA模型的路径有所不同,它试图通过端到端的学习,直接建立视觉、语言与动作输出的快速映射。这类似于模拟一个相对初级的“视觉-运动”反射通路,它绕过了高级的、需要内部模拟的推理过程,追求在感知与行动之间实现高效但相对表层的链接。
大模型在“感知-决策-行动”闭环中的结构性缺失是显而易见的。VLA模型由于构建了相对完整的功能链,在“VLA与世界模型谁代表未来”的议题中成为争论的焦点(《世界模型vs VLA:谁是未来智能驾驶的“最强大脑”?》《VLA与世界模型孰美?厂商有话说》)。但如果我们从智能仿生学的根本原则出发,世界模型与VLA模型孰优孰劣就很清晰了:
一、架构逻辑上,是否实现分层协同与有机统一?
世界模型高度符合:通过感知模块构建世界状态,通过内部模型进行状态推演与决策,最终驱动行动,形成一个分层次、可解释的有机闭环。其模块间通过“预测”这一机制紧密耦合,形成内生的一致性。
VLA模型偏向机械拼接:虽连接了感知与行动,但通常采用“乐高式”的端到端映射。建立了快速反射弧,却缺乏对物理规律与因果关系的内部建模,导致闭环流于表面,难以支撑深层认知。
二、在认知机制上,是否体现“动中学”的智能本质?
世界模型高度符合:其核心在于通过与世界的交互来学习并更新其内部模型。智能体通过预测未来、验证预测、修正模型这一循环来提升认知,这正是“智能在交互中产生”的仿生学体现。
VLA模型部分符合:在交互中学习,但学习的是指令到动作的映射关系,而非世界运行的深层规律。其智能更像一种条件反射,而非基于理解的主动认知。
三、发展潜力上,是否支持能力的自主演化与涌现?
世界模型高度契合:一个精确且可演化的世界模型本身即构成智能体的“认知内核”,能够在此基础上涌现出推理、规划与通用问题解决等高级能力,具备持续成长的潜力。
VLA模型存在局限:能力严重依赖于训练数据中所隐含的映射关系,本质上是统计关联的拟合结果,难以泛化至未知新场景,也缺乏超越训练分布之外的自主演化能力。
虽然当前的世界模型也并不完善,我们说大模型、世界模型、VLA模型需要深度融合。但通过对比不难发现,VLA模型的根本局限正在于认知内核的缺失,它所实现的是一条从感知到行动的“刺激-反应”链,其决策缺乏对物理规律的内部推演与因果理解作为支撑。而世界模型之所以更接近智能的本质,正是因为它尝试构建一个能够内部推演世界动态的智能核心。这一核心驱动整个架构成为一个有机整体,使智能得以在与环境的持续交互中自主演进与生长。
总而言之,从智能仿生学的视角看,真正意义上的“人工智能”应该与人类智能一样是个有机的生命体。其重点在于“智能”——建立在哲学思辨与系统工程之上的、具备内生动力与整体性的认知能力;而非 “人工”——仅仅作为计算机科学与还原论思想的技术延伸。
注:
由机械工业出版社出版、张俊秋主编的《智能仿生学》一书所持观点,可能与笔者主张的“智能仿生学”在内涵上并不相同。从网上找到的该书介绍内容看,其“智能”和“仿生”是分开的两个概念。而本文论述的“智能仿生学”建立在“人类智能不是个纯自然科学概念”这一哲学判断上,不仅关注智能的生物学基础与计算模拟,更旨在系统覆盖智能存在、演进与现实化用的完整循环。因此,这一理论框架本质上是一个融合社会科学与自然科学的综合性认知体系与方法论。
【相关专题】
“一半天堂一半地狱”:人才富集与产业空心化,AI为什么也这么难?
汽车工业第四代生产范式,为什么没有率先出现在中国?(1)四个问题,读懂特斯拉超级工厂和第四代生产范式
汽车工业第四代生产范式,为什么没有率先出现在中国(2):智能制造的核心竞争逻辑,从上海超级工厂的特殊地位说起
汽车工业第四代生产范式,为什么没有率先出现在中国(3):为什么也没有诞生在德国?
汽车工业第四代生产范式,为什么没有率先出现在中国(4):美国“去工业化”与特斯拉崛起的悖论
汽车工业第四代生产范式,为什么没有率先出现在中国(5):工业强国的真正标准
从“互联网+”到“人工智能+”:云计算生态演进揭示AI应用破局之道
解密Palantir:AI+时代企业IT演进与“本体”变革的深度剖析
Palantir解密:从企业数字化能力构成说起,“本体”如何破解现代企业数据应用难题?
Palantir解密:从AI到AI Agent,为什么需要“本体”?有没有其他方案?
Palantir解密:李飞飞与强化学习之父对大模型的批评有何不同?兼论“本体”的哲学本质
本文在网络公开资料研究基础上成文,限于个人认知,可能存在错漏,欢迎帮忙补充指正。
更多推荐



所有评论(0)