一、AI简介

 1.1、AI是什么

        AI(Artificial Intelligence 又称为【人工智能】)它的核心目标是创建能够模拟、延伸与扩展人类智能的理论、方法、技术以及应用系统,可从多个层面来看【可简单理解为AI是对人意识与思维的信息过程模拟,实现像人那样的思考与实践或超过人的智能】。

多层面查看AI效果
序号 多层面查看AI 效果
1 功能层面

AI主要目标是使机器具备学习、推理、理解、决策、感知、语言交流等人类智能活动的能力。

(如通过执行:视觉识别、数据分析、游戏对弈、语言翻译等操作,实现类似人类智能才能完成的任务)

2 技术层面

AI主要涉及计算机科学、数学、神经科学、认知科学、心理学、语言学等多个学科的交叉融合。

(通过设计与构建出能够感知环境、学习经验、推理决策并采取行动来实现对特定目标的智能系统来推动技术进步)

从本质上讲,AI不是简单执行预先设计的指令,而是可以从数据、经验中自主学习、优化决策、适应环境的集合体。它的目标是模拟、延伸与扩展人类的智能,而不是复制人类意识。

AI具备四种核心能力:

《1》感知智能:可模拟人类的视觉、听觉、触觉(如:计算机视觉CV、语音识别、传感器感知)。

《2》学习智能:可从数据中提取出对应模型并进行优化(如:监督、无监督的强化学习、深度学习)。

《3》推理决策:可基于现有的知识、数据来做判断、规划和预测(如:逻辑推理、知识图谱、博弈决策)。

《4》交互执行:可理解自然语言进而生成对应的内容并自主行动(如:NLP、生成式AI、机器人控制)。

 1.2、AI的技术层级分类

AI的技术层级分类
序号 AI的技术层级 说明
1

弱人工智能

(ANI 当下主流)

《1》定义:专注单一、特定领域的任务,没有通用的认知能力。

《2》特点:指专注于领域内、无法跨界、仅能迁移有限能力。

《3》示例:人脸识别、语音助手、推荐算法【是当下主流】。

2

强人工智能

(AGI 理论目标)

《1》定义:具备人类水平的通用认知能力,可理解、学习、执行任意的智能任务。

《2》特点:跨领域通用、可自主学习、常识推理、具备自我意识。

《3》示例:目前暂未实现,还处于前沿研究

3

超人工智能

(ASI 理论科幻)

《1》定义:全面超越人类所有认知的智能系统。

《2》特点:暂无。

《3》示例:仅存在于理论或科幻场景、暂时没有实现的技术路径。

 1.3、AI的核心技术与应用边界

AI的核心技术
序号 AI的核心技术 说明
1 算力 GPU/TPU、云计算、分布式计算等技术用来支撑大规模的模型训练。
2 数据 标注、非标注数据、大数据、知识图谱等资源是推动AI的燃料。
3 算法 深度学习、机器学习、强化学习、进化算法、逻辑推理让AI不断演进智能水平。

目前的AI应用边界:

《1》能够做到:模式识别、数据预测、内容生成、自动化控制、精准推荐、辅助决策

《2》不能做到:真正意义上的理解语义、拥有自我意识、常识推理、跨领域自主创建、情感共情。

二、大语言模型与AI Agent

 2.1、大语言模型是什么?

        大语言模型(Large Language Model 简称:LLM)是一种基于海量文本数据训练的深度学习模型(也称为巨型神经网络)擅长语言和知识,不擅长长期任务、工具使用和自主行动

        《1》它的核心思想是:通过大规模无监督训练学习自然语言的模式和结构,在一定程度上模拟人类的语言认知和生成过程。

        《2》它的核心能力是:对话(即根据输入的提示【prompt】预测下一个最可能的词,生成回答、代码、文章等内容。典型示例有:ChatGPT、Claude、豆包、文心一言等)。

大语言模型可以实现:

        《1》理解和生成自然语言(如可实现:【理解文字、回答问题】、【写文章、写代码、做翻译和总结】、【做推理、对话、逻辑判断】);

        《2》回答问题、写作、写代码、翻译和总结等;

        《3》只能响应输入,不会自主行动。

 2.2、AI Agent是什么?

        AI Agent(也称为:AI智能体)是在大模型的基础上,新增了记忆、规划、工具调用与自主执行能力的智能系统,就像一个独立的个体(有记忆、会规划、能用工具【如:电商网站的自动客服机器人、各种写方案的AI助理、各类数据分析Agent等】)。与单纯回答问题的大语言模型不同,AI Agent可以实现:

        《1》听懂你的需求或目标(如:需要整理今年的最新AI技术报告);

        《2》自主规划(【拆解复杂任务为具体步骤和推理】如:查找数据--->整理数据--->编写内容--->生成文件);

        《3》自主使用外部工具(如:打开浏览器搜索、操作文件、调用API、代码执行等);

        《4》记忆和反思(【自主根据执行结果调整下一步行动完成多步骤工作流】、【自主纠错、迭代、直到完成任务】)。

        《5》主动执行而不是被动响应。

目前主流的AI Agent
主流AI Agent分类 系列 说明
国际主流AI Agent

OpenAI系列

(适合【通用+开发】)

《1》GPTs:面向普通用户的自定义Agent构建器(可零代码创建专属智能体)。

《2》Assistants API:面向开发者的Agent开发框架(支持代码解释、文件检索、函数调用)。

《3》GPT-5 Agent模式:原生支持长任务执行,多步骤规划(市场领导者,推理与编码能力强)。

Microsoft Copilot系列

(适合【办公+全场景】)

《1》Microsoft 365 Copilot:深度集成Word、Excel、PPT、Outlook套件,办公场景渗透率最高。

《2》Windows Copilot:桌面系统智能体,可接管系统操作、文件管理、应用调度等操作。

《3》Copilot Pro:支持自定义的Agent、多模态创作、代码开发。

Google系列

(适合【多模态+企业级】)

《1》Gemini 2.0 Ultra:多模态能力最强,视觉、语音、文本、统一理解。

《2》Agent Builder:是低代码Agent开发平台,可对接Google Workspace、搜索、知识图谱。

《3》Vertex AI Agent Engine:可企业级部署、管理、监控全链路。

Anthropic Claude系列

(适合【安全+长上下文】)

《1》Claude 4.5 Opus:复杂推理、超长上下文(支持200k tokens)企业级安全可控。

《2》Claude Code:代码开发专用Agent,支持完整开发工作流。

《3》Claude Agent SDK:开发者工具包、具备可解释性与合规性。

Perplexity AI

(适合【实时研究+搜索增强】)

《1》主要强项是实时信息检索、深度研究、多源整合;适合学术、市场分析场景。
国内主流AI Agent

字节跳动Coze系列

(适合【零代码+生态】)

《1》扣子平台:零代码Agent开发、支持插件、工作流、多Agent协作。

《2》扣子空间(Coze Space):终端通用智能体,是个人助手与工具的聚合。

阿里巴巴通义千问系列

(适合【办公+云生态】)

《1》通义千问:通用对话Agent,可接入淘宝、支付宝、高德等生态系统。

《2》Qoder Worker:是桌面系统(Mac、Windows)级智能体(可实现文件整理、数据分析、内容创作)。

《3》阿里云百炼:是一站式的Agent开发、部署、运维平台。

百度文心一言系列

(适合【办公】)

《1》文心一言:普通对话+工具调用(可覆盖搜索、创作和办公)

《2》心响App:超级智能体(具备多模态、长记忆、主动规划功能)

华为盘古智能体

(适合【企业+行业】)

面向政企、金融、制造,主打安全可控、国产化适配、多模态感知。

影刀AI Power

(适合【办公自动化】)

低门槛、可将财务、办公、供应链等场景自动化

实在Agent

(适合【企业办公自动化】)

低门槛、可将财务、办公、供应链等场景自动化

 2.3、大语言模型与AI Agent区别和联系

  2.3.1、大语言模型与AI Agent的核心区别

大语言模型与AI Agent的核心区别
序号 维度 大语言模型(LLM) AI Agent
1 定位 语言、知识大脑 可自主完成任务的智能体
2 自主性 低(只是被动回答) 高(可自主规划和执行)
3 能力 可理解、生成、推理需求或目标

可理解、生成、推理需求或目标并【自主规划和执行】;

4 记忆 短期对话记忆 长期记忆、具有任务历史
5 工具使用 不能
6 典型场景

问答与生成

(如:聊天、写作、翻译、总结)

自动化工作流、复杂任务

(如:自动办公、自动数据分析、自动执行任务)

  2.3.2、大语言模型与AI Agent的联系

大语言模型与AI Agent的联系
序号 联系
1

以人类作为参考,可简单的类比为:

《1》大语言模型(LLM)是大脑;

《2》AI Agent是大脑+手脚;

2

AI Agent通过是使用大语言模型(LLM)作为推理引擎,额外增加了规划、工具使用等能力来完成实际任务。

(简单的说就是:大语言模型作为大脑负责思考和调度、而AI Agent则是使用大脑干活的智能体,可自动规划使用工具来完整完成具体的任务)

3 AI Agent离不开大语言模型(LLM);但是大语言模型不是AI Agent。

三、目前主流的AI Agent开发框架

目前主流的AI Agent开发框架
AI Agent开发框架分类 典型产品 说明

模块化单Agent框架

(生态最成熟完善)

LangChain

(入门首选、生态完善)

【开源】

《1》定位:模块化、可组合的LLM应用开发框架,是Agent开发的基础底座。

《2》特点:

        1、组件化设计:拆分Prompt、LLM调用、工具、记忆、链、图等模块,可自由组合;

        2、工具丰富:内置100多的工具(如:搜索、数据库、代码执行、文件读写)可自定义;

        3、记忆丰富:可实现短期、长期记忆、向量存储、实现上下文感知。

        4、多模型兼容:可使用多种LLM模型(如:OpenAI、通义千问、本地模型等)。

        5、配套生态:LangSmith(可调试、监控)、LangGraph(适合复杂工作流)。

《3》适用场景:新手入门、单Agent、知识库问答、对话机器人、简单任务自动化、快速原型开发。

LangGraph

(复杂工作流搭建)

【开源】

《1》定位:是基于图结构的状态机编排框架(可解决复杂、有状态、多步骤的Agent流程);

《2》特点:

        1、图结构+状态管理:可实现循环、分支、并行、人工干预,全流程可控。

        2、多Agent协调:原生支持多种Agent协作与状态共享。

        3、可观测性:深度集成LangSmith,全链路追踪与调试。

《3》适用场景:企业级审批、金融建模、合规系统、复杂任务拆解(生产级应用)。

OpenAI Agents SDK

(官方轻量方案)

【开源】

《1》定位:OpenAI官方推出的轻量级Agent开发工具包,极简集成。

《2》特点:

        1、轻量化:API简洁(可快速定义Agent、工具、多Agent交接)。

        2、深度兼容:与GPT系列、Function Calling、Vector Stoge无缝集成。

        3、会话管理:内置对话历史与上下文管理。

《3》适用场景:快速原型、OpenAI生态应用、轻量级对话Agent。

Google ADK

(谷歌Agent开发工具)

【开源】

《1》定位:Google Cloud全栈Agent开发框架、企业级基础设施。

《2》特点:

        1、预置Agent类型:Sequential、Parallel、Loop Agent,可快速搭建复杂系统。

        2、多模态:全部支持文本、图像、音频、视频等内容。

        3、生态闭环:Gmail、Docs、Drive、Vertex AI、Google Search深度集成。

《3》适用场景:Google生态企业、多模态应用、大规模生成部署。

多Agent协作框架

(复杂任务分工)

AutoGen

(微软开源,对话驱动)

【开源】

《1》定位多Agent对话协作框架、支持Agent间自然对话完成复杂任务。

《2》特点:

        1、多角色对话:用户、助手、专家、代码执行器等多Agent协同。

        2、任务自动分解:可将复杂任务拆分为子任务,Agent自主协商执行。

        3、代码执行:内置代码沙箱,支持Python、Shell执行与结构反馈。

《3》适用场景:研究探索、代码开发、多专家咨询、创新型任务。

CrewAI

(角色驱动,团队协作)

【开源】

《1》定位:模拟企业团队的多Agent框架,强调角色分工与任务协同。

《2》特点:

        1、角色定义:为Agent分配明确角色(如:产品经理、工程师、设计师)与目标。

        2、任务链:按流程分配任务,自动依赖管理与进度同步。

        3、工具共享:统一工具库,Agent按需调用。

《3》适用场景:业务流程自动化、内容生成、客服团队、中小型企业复杂任务。

MetaGPT

(字节跳动开源的多角色智能体)

【开源】

《1》定位:基于大模型的多角色智能体框架,模拟软件团队协作。

《2》特点:

        1、角色化智能体:可定义产品经理、架构师、工程师、测试任意等完整团队。

        2、全流程自动化:需求-->设计-->编码-->测试-->部署一站式完成。

        3、代码生成与执行:支持多语言代码生成、运行与调试。

《3》适用场景:软件开发、自动化工程、研究原型。

企业级集成框架

(注重安全与系统兼容)

Microsoft

Semantic Kernel

(微软的企业级AI集成)

【开源】

《1》定位:企业级AI应用开发框架,注重与现有系统安全集成。

《2》特点:

        1、技能+规划:可将业务逻辑封装为skill(技能),规划器自动编排执行。

        2、多模型兼容:Azure OpenAI、本地模型、第三分LLM统一接入。

        3、安全与合规:身份验证、权限控制、数据加密、符合企业标准。

《3》适用场景:企业现有系统智能化、办公自动化、内部工具开发。

低代码平台

(快速搭建,上手友好)

Dify

(低代码,可视化开发)

【开源】

《1》定位:开源低代码Agent开发平台,可视化拖拽与API调用。

《2》特点:

        1、可视化编排:无需代码,拖拽组件构建Agent流程。

        2、知识库管理:内置向量数据库,支持文档上传于检索增强。

        3、一键部署:支持Web、API、小程序多端发布。

《3》适用场景:快速原型、非技术人员、中小企业、客服机器人。

Coze

(字节跳动零代码)

【有开源版】

《1》定位:企业级零代码智能体平台,拖拽式构建。

《2》特点:

        1、零代码发布:可视化界面,拖拽组件完成Agent设计。

        2、多平台发布:微信、钉钉、飞书、Web、App等一键接入。

        3、企业级能力:权限管理、版本控制、日志审计、行业模板。

《3》适用场景产品、运营、企业快速交付、生产级Agent应用。

n8n 开源自动化平台,可视化工作流

AI Agent框架的选型建议:

        《1》新手入门(快速原型构建):选择【LangChain】或【OpenAI Agents SDK】;非技术人员可选【Dify】【Coze】。

        《2》复杂工作流(生产企业级):选择状态控制最强的【LangGraph】或全栈生态的【Google ADK】。

        《3》多Agent协作(团队任务):选择角色分工的【CrewAI】或对话驱动的【AutoGen】。

        《4》企业系统集成(注重安全):选择微软生态的【Microsoft Semantic Kernel】。

        《5》简单自动化任务:可选择【n8n】。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐