目录

Agent基础学习心得:AI模型的能力边界与分类

AI模型不是全能选手

产品的全能,源于多模型协同

主流AI模型分类及能力

大语言模型(LLM)

多模态模型

向量模型

三类模型的核心分工

谁来主导模型协同与决策?


Agent基础学习心得:AI模型的能力边界与分类

最近开始接触Agent开发,发现刚开始最容易踩的坑,就是没理清基础概念就急着钻代码、看架构。一开始被大模型、Agent、工具调用这些陌生名词绕得晕头转向,总觉得它们都是厉害的AI,能搞定各种事,直到后来实际了解才发现,这种模糊认知很容易影响后续学习,所以决定先好好梳理下基础,今天就和大家分享AI模型的能力边界,搞懂不同模型到底能做什么、不能做什么。

毕竟要学Agent,先把底层的AI模型搞明白,后续再理解Agent、RAG这些内容,才能建立清晰的认知框架,不然很容易越学越乱。今天不聊复杂的实现技巧,就单纯分享我对AI模型的学习感悟,帮和我一样刚入门的小伙伴避坑。

AI模型不是全能选手

现在我们用的AI产品,比如豆包,感觉什么都能做,能聊天、能写文案、能改代码,还能生成图片,界面也很统一,久而久之就容易产生错觉,觉得反正都是大模型,换一个用差别不大,甚至觉得AI的核心就是聊天、写东西。

后来深入了解才发现,这种想法其实混淆了产品能力和模型能力。那些看似无所不能的AI产品,根本不是靠单个模型撑起来的,背后是好多不同类型的模型一起协作,再通过系统整合起来,才呈现出我们看到的全能效果。

产品的全能,源于多模型协同

我们看到的无缝衔接的功能,背后其实有明确的分工。不同类型的模型各做各的擅长领域,再通过系统层把它们的能力整合、封装,最后用统一的界面展示给我们。也正因为前台体验太连贯,我们才会误以为单个模型就能搞定所有事。

其实不管什么AI模型,本质都很简单,就是接收输入、生成输出。不同模型的差别,主要在三个方面:输入的形式、输出的形式,还有擅长处理的信息类型。根据这三个维度,就能把主流的AI模型分清楚,也能明白它们各自的作用。

主流AI模型分类及能力

这部分是我整理的重点,也是最容易混淆的地方,结合自己的理解,给大家讲清楚三种主流模型的区别,都是大白话,好懂不晦涩。

1.大语言模型(LLM)

这是我们最常接触的模型,也是最容易被当成AI全部的类型。它的核心能力很集中,就是理解自然语言,然后生成符合逻辑、贴合语境的自然语言。

我们平时写文案、改论文、翻译文字、找AI辅助写代码,甚至总结数据分析结果,用的其实都是大语言模型。这些任务有个共同点,就是输入是文本,输出也都是文本,刚好契合大语言模型的擅长领域。

2.多模态模型

多模态模型是在大语言模型的基础上,突破了能力边界——不再只处理文本,还能理解或生成图片、音频、视频这些不同形态的内容。

比如看图说话、解析图片里的内容、用文字生成图片或视频,这些都是多模态模型的应用场景。这里要纠正一个我之前也犯过的误区,多模态不代表更聪明,它的核心价值是拓展了输入和输出的形式,解决了能不能处理文字之外内容的问题,而不是提升逻辑推理能力,它不会决定该做什么、下一步怎么做,只是让信息呈现和接收的形式更丰富。

3.向量模型

和前两种模型比起来,向量模型就显得很隐形了,要是没接触过Agent开发,大概率不会知道它的存在。而且它和前两种模型最大的区别是,不负责生成内容。

向量模型的输出既不是文本,也不是图片,而是一组代表语义特征的数字,也就是向量。这组数字的作用,就是标注一段内容在语义空间里的位置,以及两段内容的语义相似度。所以它更像是幕后支撑,比如我们用的搜索、内容推荐、RAG检索增强生成,都离不开它。简单说,它不直接给答案,而是帮我们精准找到和问题相关的内容。

三类模型的核心分工

搞懂了三种模型的能力,它们的分工就很清晰了:

大语言模型负责理解和表达语义,核心就是把话说清楚、把逻辑理通顺;多模态模型打破文本的局限,实现不同形态内容的交互,核心是拓展信息的载体;向量模型负责判断内容的语义关联,核心是精准匹配相关信息。

我们感受到的AI产品的全能,其实就是这三类模型,再加上其他工具一起协同工作的结果,根本不是单个模型的单打独斗。

谁来主导模型协同与决策?

学到这里,我就产生了一个疑问:模型只是提供基础能力,那谁来决定什么时候调用哪种模型?谁来掌控任务的流程?谁来判断下一步该做什么?

后来才明白,模型本身不会思考这些问题,它只会被动接收输入、生成输出。如果想让AI不局限于单次问答,能自主推进有目标、有步骤的复杂任务,就必须引入一个核心概念——Agent。

关于Agent,我会在下次的学习心得里和大家详细分享,一起探索这种能自主推进任务的AI,到底有哪些特质。


上述内容也同步在我的飞书,欢迎访问

https://my.feishu.cn/wiki/QLauws6lWif1pnkhB8IcAvkhncc?from=from_copylink

如果我的内容对你有帮助,请点赞,评论,收藏。创作不易,你们的支持就是我坚持下去的动力!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐