封面

新名词一串接一串,我花了一天时间搜集学习,帮大家把这些概念从底到顶理一遍。

LLM、Token、Context、Prompt、Tool、MCP、Agent、Skill、Harness Engineering。

这些词最近是不是经常在你的朋友圈、技术群、各种AI自媒体文章里冒出来?

说实话,我观察了一段时间,发现一个问题。很多AI自媒体(包括我自己以前)在聊这些词的时候,要么一笔带过,要么吹得神乎其神,很少有人真正把这些概念之间的关系讲清楚。搞得大家看了一堆文章,还是晕晕乎乎的——每个词好像都见过,但你问它到底啥意思、跟其它概念是什么关系,说不上来。

所以今天我专门花了一天时间,把相关的论文、文档、技术博客、视频都翻了一遍,做了一次系统的学习和梳理。然后想跟大家分享一下我的理解。

先说一个好消息:这些概念其实没那么复杂。它是一层一层往上搭的,像搭积木一样。你搞清楚了底下那块是什么,上面那块自然就理解了。

我们从最底层开始,一块一块往上垒。


第一层:LLM——一个玩文字接龙的超级大脑

一切的起点是LLM。

LLM全称Large Language Model,大语言模型,简称大模型。Claude、GPT、Gemini、千问、GLM,都属于这一类。基本上现在所有的大模型都是基于Transformer架构训练出来的,这个架构最早是Google在2017年提出的。虽然火种是谷歌发明的,但真正点燃全世界的却是OpenAI——2022年底ChatGPT横空出世,算是第一个真正达到可用级别的大模型产品。

大模型到底是怎么工作的?它的核心原理说出来你可能觉得太朴素了——就是一个文字接龙游戏。

LLM文字接龙

训练的时候,人们拿海量文本喂给它,让它学一个技能:“看到前面这些字,后面最可能接什么字?“看到"今天天气真”,它学会接"好”。看到"for i in range",它学会接"(10):“。这个接龙游戏玩了几万亿遍之后,它就变成了一个你说一句、它能顺着写出一整段内容的"语言引擎”。

这里有个细节:模型每次只吐出一个词。吐完之后,把这个词塞回输入,再预测下一个。一个接一个,直到它觉得该说的都说完了,才输出一个结束标记。这就是为什么大模型输出答案是一个字一个字往外蹦的——因为它底层就是这么运作的。

但这个"超级话痨大脑"有一个天然缺陷——幻觉(Hallucination)。说白了就是一本正经地瞎编。因为LLM的目标从来不是"说真话",而是"说看起来最像人话的话"。当它不知道某个事实时,它不会说"我不知道",而是根据语言模式编一个"像真的"答案出来。

后面我们讲到的所有东西——工具、Agent、MCP、Harness Engineering——很大程度上就是在帮这个"话痨大脑"少说错话、多干正事。


第二层:Token——AI眼里的"语言像素"

大模型在玩文字接龙,但它接的"龙"并不是按我们人类的"字"或"词"来切的。模型看一句话,会先把它切成更小的片段。这些片段就叫Token。

Token可视化

Token和词不是一回事。有时候一个Token正好是一个词,有时候一个词会被拆成两三个Token。比如"人工智能工程师",你觉得是两个词对吧?但在模型眼里它会被切成"人工"“智能”“工程”"师"四个Token。英文也一样,“helpful"会被拆成"help"和"ful”。

你可以把Token理解成模型自己学会的一套文本切分规则。粗略换算:1个Token大约等于0.75个英文单词,或者1.5到2个汉字。

Token为什么要单独拿出来讲?因为你在AI产品里看到的几乎所有"限制"和"价格",都是用Token衡量的。

顺着Token往下说,就有两个关联概念。

第一个是Context(上下文)。你跟大模型聊天,它好像能记住之前说的话。但它本质上就是个数学函数,并没有真正的记忆。它怎么"记住"的?答案是——每次你发消息时,背后的程序会自动把之前的对话历史跟你的新问题打包在一起发给模型。模型每次看到的都是完整对话记录,所以它才知道之前发生过什么。这个"打包在一起的所有信息"就叫Context,你可以理解为大模型的"临时记忆体"。

第二个是Context Window(上下文窗口)——这个记忆体能装多大。现在主流大模型的Context Window都到了百万级,GPT-5.4是105万Token,Claude Opus 4.6是100万Token。100万Token大概能装下整套哈利波特。

Token是计量单位,Context是装东西的容器,Context Window是容器的上限。三个概念一条线。


第三层:Prompt——怎么跟大脑说话

有了大模型,你得跟它交流。你给它的指令或问题,就叫Prompt(提示词)。

“帮我写一首诗"是一个Prompt。但这个Prompt太模糊了,模型可能给你写古诗、现代诗、打油诗,什么都有可能。你换成"请写一首五言绝句,主题秋天落叶,风格悲凉”,输出质量立刻不一样。

Prompt怎么写决定输出质量。曾经有个专门的领域叫Prompt Engineering(提示词工程),不过说实话现在提的人越来越少了——一方面门槛不高,本质就是把话说清楚;另一方面模型越来越聪明,你说得含糊它也能猜个八九不离十。

这里要知道的一个区分是:Prompt分两种。User Prompt是你在对话框里打的问题。System Prompt是开发者在后台配的"人设和规则",用户看不到,但它一直在影响模型行为。比如后台写了"你是耐心的数学老师,不直接给答案,要引导思考",当学生问"3加5等于几",模型就不会直接说"8",而是引导式回答。


第四层:Tool——让大脑"摸到"外部世界

到目前为止,大模型还只是一个文字接龙引擎。你问它今天上海天气怎么样,它会说"抱歉,无法获取实时天气"。因为它真的没办法去查天气网站,它全部的能力就是根据训练数据预测下一个词。

怎么办?给它接上工具。

Tool(工具)本质上就是一个函数。输入城市和日期,输出天气信息。它内部可能调了气象局接口,但这些细节模型不用管。

工具调用流程

完整流程是这样:用户提问→平台转发给大模型(同时告诉它有哪些工具可用)→大模型分析后决定调用某个工具,输出一段调用指令→平台收到指令,真的去执行工具→拿到结果返回给大模型→大模型整理成人话回复用户。

这里有个很多人搞混的关键点:大模型自己不能直接调用工具。它唯一的能力就是输出文本。想调工具时,它只能输出一段"调用指令"告诉平台帮它调。真正执行的是平台,不是模型。

Tool = 让大模型感知和影响外部世界的函数。从这里开始,大模型不仅能"说",还能"动"了。


第五层:MCP——给工具统一一个"Type-C接口"

工具搞明白了。但工程上马上出现一个问题。

你开发了一个天气查询工具,想让AI能调用它。接到ChatGPT上,得按OpenAI规范写一套代码。接到Claude上,得按Anthropic规范再写一套。接到Gemini上,还得按Google规范再来一套。同一个工具写三遍。

这就跟以前手机充电线一样——安卓一种、苹果一种、老诺基亚又一种,出门带三根线。后来怎么解决的?统一成Type-C了。

MCP干的就是这件事。

MCP全称Model Context Protocol,模型上下文协议。名字有点学术,你就记住一件事:它是AI工具界的Type-C接口标准。有了MCP,工具开发者只需要按这个规范写一次代码,就能被所有支持MCP的平台使用。

MCP是Anthropic(Claude的公司)最先推出的开放协议,定义了客户端怎么发现、连接、调用MCP服务器的统一规范。MCP服务器可以包裹任何东西——代码仓库、数据库、搜索引擎、内部API都行。现在主流AI平台基本都在跟进支持MCP了。

Tool解决的是"大模型能不能做这件事"。MCP解决的是"做这件事的工具怎么只写一次就到处能用"。


第六层:Agent——从"会聊天"到"会自己干活"

有了大模型、工具和MCP,听着已经很强了。但你想想这个场景:

“今天这里天气怎么样?如果下雨帮我查附近有没有卖伞的店。”

这不是一次工具调用能搞定的。模型得先调定位工具知道你在哪,再调天气工具查天气,发现下雨了,还得调店铺搜索找卖伞的。三个工具,分步调用,中间有判断逻辑。

这就进入了Agent(智能体)的领域。

LLM是有脑子但不会主动的专家——你问一句它答一句。
Agent是有脑子、会自我驱动、还会用工具的"虚拟员工"——你给它一个任务,它自己想办法干完。

Agent的工作循环:看输入→想下一步该干嘛→选要不要用工具→看工具结果→再想下一步。一直循环,直到任务完成。

目前大家比较熟悉的Agent产品有Claude Code、Codex,还有开源的OpenClaw(龙虾)。特别是OpenClaw,最近在国内社区很火。它是一个本地优先的AI智能体框架,可以跑在你自己的电脑或服务器上,通过工具链和长上下文记忆来驱动AI帮你干活——处理文件、操作浏览器、执行脚本、跑自动化任务。它不是聊天工具,更像一个"数字实习生"。我之前也专门写过龙虾相关的文章,感兴趣的可以翻一下。

不管是Claude Code还是OpenClaw,底层逻辑都一样:LLM做大脑,工具做手脚,加上一个能循环执行的工作流框架,就构成了一个Agent。


第七层:Skill——给Agent一份"做事说明书"

Agent能自己干活了,但用多了会发现一个问题。

比如你想让Agent每天出门前看天气、提醒你带东西。你有自己的习惯:下雨带伞、光照强戴帽子、空气差戴口罩。你还要求输出格式是先一句总结、再列物品清单。

不做额外设定的话,你只说"我要出门了,带什么",Agent大概率给你一堆泛泛的废话,因为它不知道你的规则。要拿到满意的结果,你每次提问都得带一大串说明。每天出门都复制粘贴一长串,谁受得了?

Skill就是解决这个问题的。

Skill(技能)说白了就是提前写好的一份给Agent看的说明文档。规则、步骤、格式要求、示例,全写在里面,存到指定位置。以后Agent遇到相关问题,就自动去读这份文档,按里面的要求做事。你不用每次重复说一遍了。

拿Claude Code或OpenClaw举例,一个Skill就是一个Markdown文件。上面是"元数据层"——技能叫什么、负责做什么;下面是"指令层"——做事步骤、判断规则、输出格式。Agent启动时会加载元数据,发现用户问题跟某个Skill相关时,才去读完整的指令内容。

Skill和Tool的区别:Tool是"一把菜刀",一个具体的功能点;Skill是"一整套做粤菜的菜谱+顺序+火候经验",一套完整的做事流程。Tool回答"能不能做",Skill回答"怎么做好"。


第八层:Harness Engineering——给AI装上"安全网"

到这儿,我们有了大脑(LLM)、手脚(Tool/MCP)、做事套路(Skill)、会循环干活的虚拟员工(Agent)。听着很完美对吧?

但真正把Agent上到生产环境里跑的团队,很快就发现了一个更大的坑:Agent不是"偶尔出错",而是系统性地不靠谱。跑几百步就迷路,长任务中途状态丢失,幻觉和错误被自动放大——如果不加控制,它能自信满满地帮你删掉生产数据库。

这就是2026年初最新冒出来的概念:Harness Engineering。

Harness Engineering

"Harness"这个词来自马具——缰绳、马鞍、嚼铁,一整套用来控制一匹强壮但不可预测的马的装备。这个比喻很到位:模型就是那匹马,跑得快、力气大,但它不知道该往哪跑。Harness就是让它朝正确方向跑的那一整套装备。

这个概念今年年初被OpenAI正式提出来。他们的Codex团队做了一个实验:完全不手写代码,让AI Agent自主构建了一个超过100万行代码的产品。但工程师的工作不是写代码,而是设计让AI能可靠写代码的那一整套"Harness"——约束、反馈循环、文档规范、验证系统。Martin Fowler、Anthropic等也都在跟进讨论这个概念。

Harness Engineering具体干什么?我研究下来,可以概括成四件事:

第一,硬约束。限制Agent能访问哪些API、能改哪些目录、哪些操作必须只读或需要人工确认。用沙箱、权限白名单,从根上掐掉"能出事的事"。

第二,状态追踪。把Agent每一步的思考、调用、结果都详细记录,出了问题可以回放和调试。长任务要有检查点,防止中途崩了全军覆没。

第三,自动验证。给Agent的输出加上规则校验、单元测试、静态分析。出现异常就自动回滚、重试或降级。

第四,人类在环。关键节点必须人工确认——大额操作、删除数据、对外发布内容,这些事不能让Agent一个人拍板。

Harness Engineering的核心理念:不要指望模型"天生靠谱",要通过一套制度和系统,把"不靠谱的部分"包起来。

用一个比方来总结:如果说Agent是一个能力很强但经验不足的新员工,那Harness Engineering就是这家公司的规章制度、风控体系和质量验收流程。员工再聪明,没有制度兜底,公司也会出事。


把整条线串一遍

概念全景图

现在从底往上看一遍,整条线就清楚了。

最底层是LLM+Token+Context。大模型是文字接龙引擎,Token是它处理文本的最小单位,Context是它的临时记忆体,Context Window决定了这个记忆能装多少。

往上是Prompt。你给模型的指令就是Prompt,分User Prompt和System Prompt。怎么说话决定了模型的输出质量。

再往上是Tool。让大模型能调用外部函数,从"只会说"变成"能动手"。

Tool之上是MCP。解决"工具只写一次就到处能用"的标准化问题,AI世界的Type-C。

有了脑子和手脚,装进一个能循环干活的框架里,就成了Agent——会自主规划、自主行动的虚拟员工。OpenClaw、Claude Code、Codex,底层都是这个逻辑。

给Agent配上Skill,它就不只会干活,还知道按你的标准干活。

最上面是Harness Engineering。它不让Agent更聪明,而是让Agent更靠谱——通过约束、验证、监控和人类在环,把智能体从"炫技项目"变成"可以托付的生产基础设施"。


这就是从大模型到智能体再到Harness Engineering这一整条技术线。每一层都在解决上一层留下的问题,一块一块搭上去。

回头看,这些概念并不复杂。只是之前大家习惯了零散地去接触它们,没人把它们排成一条线来看。今天排完这条线,以后再碰到AI圈子里的新词,你大概就能判断它在这个积木塔的哪一层了。

希望今天这篇对大家有帮助。如果觉得有用,转给同样在学AI的朋友吧。

这里给大家精心整理了一份全面的AI大模型学习资源包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

7. 资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐