AI Agent 学习笔记
一种高效的架构思路,训练多个“领域专家”+一个“调度员”,每次只唤醒相关的专家来回答问题,降低成本、提升速度。:以“安全合规”和“长上下文”著称,支持100万Token,是金融法律和代码安全领域的优选。:让AI不仅能看文字,还能“看懂”图片、“听懂”声音,像人一样融合多种感官理解世界。:不仅会“思考”,还能“动手”的智能体,能自主规划任务、调用工具来帮你达成目标。:AI模型的“骨架”和“设计蓝图”
一、专业术语
-
AI Agent:不仅会“思考”,还能“动手”的智能体,能自主规划任务、调用工具来帮你达成目标。
-
AGI:人工智能的终极目标,拥有像人类一样的通用智能,能解决任何问题。
-
大模型:一个超大规模的“大脑”,经过海量数据训练,能理解并生成文字、代码等内容。
-
多模态:让AI不仅能看文字,还能“看懂”图片、“听懂”声音,像人一样融合多种感官理解世界。
-
接口(API):AI Agent与外部世界交互的“通道”或“插座”,通过它来调用工具、获取信息。
-
调用:AI Agent实际执行接口请求的“动作”,比如“拿起手机拨号”这个操作。
-
Token:AI处理信息的最小单位,你可以理解为AI世界的“字数”(1个汉字≈1-2个Token)。
-
上下文窗口:AI一次性能“记住”的最大Token数量,决定了它能处理多长的内容。
-
架构:AI模型的“骨架”和“设计蓝图”,决定了模型的能力上限和效率下限。
-
MoE(混合专家模型):一种高效的架构思路,训练多个“领域专家”+一个“调度员”,每次只唤醒相关的专家来回答问题,降低成本、提升速度。
-
RAG:检索增强生成,让大模型先通过 向量数据库 检索外部知识,再生成回答,解决知识过时、幻觉、信息不准的问题。
-
MCP:模型上下文协议,用来统一连接工具、数据、服务,让 AI Agent 能安全、标准化地调用各类外部能力与资源。
-
Memory:AI Agent 的记忆存储,用于记录历史、积累知识,实现持续交互。
-
Skills:AI Agent 封装好的原子能力,是其可执行的具体动作或工具集。
- RPA:机器人流程自动化,模拟人类在电脑上的操作,自动执行大量重复、基于固定规则的业务流程。
有 API、需要灵活判断的 → 用 Skills
没 API、流程固定的、需要稳定执行的 → 用 RPA

二、国内外大模型篇
海外阵营
-
GPT(OpenAI):AI领域的标杆,从ChatGPT开始引爆浪潮,具备完整的多模态能力和强大的工具调用功能。
-
Gemini(谷歌):原生多模态设计的“全能选手”,从设计之初就无缝处理文本、图像、音视频,Agent能力突出。
-
Claude(Anthropic):以“安全合规”和“长上下文”著称,支持100万Token,是金融法律和代码安全领域的优选。
-
Grok(xAI):马斯克团队打造,以“叛逆”风格和实时数据分析见长,深度整合X(推特)平台。
-
Llama(Meta):开源模型的“旗帜”,允许全球开发者免费下载和研究,最新版聚焦多智能体协同。
国内阵营
-
DeepSeek(深度求索):以深度文本理解、推理和开源见长,采用MoE架构,免费向用户开放。
-
千问(阿里巴巴):阿里出品,真正的多模态模型,能看懂图片、图表,支持广泛的生态应用。
-
豆包(字节跳动):面向大众的多模态AI助手,支持图像、语音多种交互方式,定位是“Agent平台”。
-
Kimi(月之暗面):以超长上下文处理起家,最新K2.5升级为原生多模态模型,采用DeepSeek-like架构。
-
智谱GLM(智谱AI):对标国际顶尖水平,编程能力是其核心卖点,已完成国产算力适配。
-
MiniMax(名之梦):在编程、工具调用上表现优异,同时在音乐与内容生成领域有独特优势。
-
文心一言(百度):国内最早的模型之一,通过春晚等合作持续升级,生态积累深厚。
-
混元(腾讯):注重打造差异化AI社交生态,其“元宝”APP功能调用量表现不俗。
三、国内外AI Agent 产品
海外阵营
-
*OpenClaw:开源的通用AI助手框架,可私有化部署,通过聊天软件控制电脑,实现真正的数字员工。
-
*Cursor:AI原生代码编辑器,深度理解代码库,能自主完成复杂编程任务。
-
*GitHub Copilot:基于全球最大开源生态的编程副驾驶,与VS Code深度集成。
-
Supermaven:支持100万Token上下文的编程助手,擅长维护老项目代码库。
-
ZeroClaw:用Rust重写的极致轻量版OpenClaw,内存仅5MB,适合边缘计算和IoT设备。
-
*NanoClaw:TypeScript编写的OpenClaw变种,强调容器隔离安全,代码精简。
-
*IronClaw:安全优先的OpenClaw变种,采用WASM沙箱运行工具代码,内置多层安全机制。
-
OpenFang:最新的Rust重构版OpenClaw,主打自主工作流,能按预设SOP自动执行任务。
国内阵营
-
*实在Agent:能像人一样操作任何软件的数字员工,擅长跨系统自动化业务流程。
-
明略科技 DeepMiner:专注于深度数据挖掘与商业决策的可信智能体。
-
阿里钉钉AI助理:深度嵌入钉钉办公流,可自动完成审批、会议纪要等任务的数字同事。
-
字节扣子 (Coze):提供可视化拖拽界面,让不懂代码的人也能快速搭建智能体的低代码平台。
-
阿里千问 (Qwen):已接入淘宝、飞猪等应用,能直接点外卖、订机票的全能生活管家。
-
月之暗面 Kimi:擅长处理百万字超长文本,适合审查合同、分析文献的阅读分析专家。
-
百度文心快码 (Comate):采用多智能体矩阵,遵循工程规范,能拆解复杂任务的架构师型编程助手。
-
*LobsterAI(有道龙虾):网易有道开源的“中国版OpenClaw”,内置16种技能,适配中式办公流。
-
女娲智能体OS:西南财大团队开源的“数字分身”操作系统,首创岗位智能体概念,安全沙箱运行。
- MaxClaw(MiniMax):基于OpenClaw构建的云端 AI 助手,无需本地部署和 API Key。
分类方式2
- CLI Agent —— 界面:终端 / 命令行;代表产品:Claude Code、CodeX;
$ ai 帮我创建一个test.py文件并写好代码
# AI 直接在你电脑上生成文件、运行程序
- IDE Agent —— 界面:代码编辑器;代表产品:Cursor、GitHub Copilot;
支持 MCP 协议、能调用 MCP 服务的 IDE,可称为 MCP Host。
- Desktop Agent —— 界面:桌面系统全局;代表产品:OpenClaw、LobsterAI、实在Agent。
- Cloud Agent —— 界面/入口:网页 / 聊天软件 / API;代表产品:MaxClaw(傻瓜版Openclaw)、Coze(平台)。
四、Windows + cursor + 虚拟机
1、windows挂梯子
2、确认虚拟机端已开启 SSH
# 虚拟机安装ssh服务并设置开机自启
sudo apt update
sudo apt install -y openssh-server
sudo systemctl enable --now ssh
# 查看虚拟机 IP
ip a
hostname -I
# (若有防火墙)放行 22 端口(或你实际使用的端口)
sudo ufw allow 22/tcp
sudo ufw status
3、从 Windows 连接虚拟机
ssh 虚拟机用户名@虚拟机IP
更多推荐

所有评论(0)