Meta打开AI元认知，让AI不止会解题，还会总结套路了

大语言模型记性不太好。具体来说，它们在解决需要多个步骤的复杂问题时，经常“顾尾不顾头”。比如它刚辛辛苦苦推导出一个几何级数求和公式解了一道题，下一道题遇到类似的问题，它就把刚才的功夫忘得一干二净，又从头开始重新推导一遍。这个过程不仅浪费了大量的计算资源，还拖慢了响应速度。这就像一个学生，每次考试都现场推导勾股定理，而不是直接记住a²+b²=c²。Meta、Mila-Quebec人工智能研究所、蒙特

SuaniCommunity

436人浏览 · 2025-09-23 19:22:08

SuaniCommunity · 2025-09-23 19:22:08 发布

大语言模型记性不太好。

具体来说，它们在解决需要多个步骤的复杂问题时，经常“顾尾不顾头”。

比如它刚辛辛苦苦推导出一个几何级数求和公式解了一道题，下一道题遇到类似的问题，它就把刚才的功夫忘得一干二净，又从头开始重新推导一遍。这个过程不仅浪费了大量的计算资源，还拖慢了响应速度。

这就像一个学生，每次考试都现场推导勾股定理，而不是直接记住a²+b²=c²。

Meta、Mila-Quebec人工智能研究所、蒙特利尔大学、普林斯顿大学，他们提出了一套简单的机制，给大模型打开了元认知，让它学会了反思和总结。

简单说，就是让模型在解完一道题后，自己回头看看解题过程，把那些重复出现的、可以泛化的推理步骤给揪出来，然后打包成一个简洁、可重用的‘行为’。

这个‘行为’就像一个武功招式，有个名字，还有一句心法口诀。比如下面这个：

systematic_counting → 通过检查每个数字的贡献而不重叠来系统地计算可能性；这样可以防止遗漏案例和重复计算。

这些‘行为’招式会被收录进一本不断更新的‘行为手册’里。以后再遇到类似的江湖难题，模型就直接翻开手册查阅对应的招式就行。

这套玩法，研究人员称之为‘元认知重用’。

AI如何打造自己的‘武功秘笈’

这本秘笈不是人类高手写的，而是大模型自己琢磨出来的。

整个过程有点像一个三步走的自我修炼：

第一步，找一个策略大师。研究人员请来了DeepSeek-R1-Distill-Llama-70B这个模型担任‘元认知策略师’。它基于Llama-3.3-70B-Instruct架构，是个解数学题和编程题的好手。

第二步，解题与反思。策略师先老老实实地解决一个给定的问题，写下详细的解题思路和答案。然后，它会像一个严格的老师一样，回头审视自己的解题过程，进行反思：逻辑通不通顺？答案对不对？更重要的是，这里面有没有什么可以提炼出来、以后能用得上的通用技巧？

第三步，提炼与入库。策略师结合原始问题、自己的解题方案和反思，最终提炼出一套‘行为’，也就是（名称，指令）的组合，然后把它们郑重地写进那本不断加厚的‘行为手册’里。

这个过程就像一个武学宗师，打赢了一场架，不仅要复盘胜负手，还要把其中的精妙招式总结成心法，传给后人。

值得一提的是，这种‘行为手册’里装的是程序性的知识，是关于‘如何思考’的方法论。这和市面上主流的检索增强生成（Retrieval-Augmented Generation，RAG）系统有本质区别，RAG主要存储的是陈述性的事实知识，比如‘法国的首都是巴黎’，用来回答事实性问题。而‘行为手册’教的是‘如何找到首都’的通用方法。

‘武功秘笈’的三种实战用法

秘笈写好了，研究人员设计了三种方式，让这本手册在实战中发挥作用。

第一种，行为条件推理（Behavior-Conditioned Inference，BCI）。

这是最直接的用法。来了一个新问题，先别急着动手，去手册里翻一翻，找几条可能用得上的招式。然后把这些招式连同问题一起，作为上下文（context）喂给解题的模型。

这相当于给学生发了一张写着关键公式和提示的‘小抄’。

怎么找相关的招式呢？

对于像MATH数据集这种题目本身就分好类的，比如‘代数’、‘几何’，那就简单了，直接从对应类别的行为里找就行。研究人员从MATH训练集中随机抽取了1000个问题，生成了一本包含七个章节（主题）的行为手册，共计785条行为。

对于没有分类的数据集，比如美国数学邀请赛（American Invitational Mathematics Examination，AIME）的题目，就得上点技术手段了。研究人员使用BGE-M3模型将问题和手册里所有行为都转换成向量，然后用FAISS（一个用于密集向量相似性搜索和聚类的库）这个工具，快速找到和问题向量最接近的前40条行为。这种基于嵌入的检索方式扩展性很强，理论上可以维护一个跨领域的超大行为库，并且能以很低的延迟检索。