01AI大模型
专门设计用来和人类进行自然语言交流,支持多轮对话,能记住上下文,能精准理解人类的意图和语义。入门首选:Ollama/LM Studio(一键部署,零基础,跨平台,支持API);在指令模型基础上,用 人类偏好数据 ,调试模型,得到一个 对话式AI大模型。基础模型,主要通过预测文本来学习,擅长语言生成,但缺乏明确的任务导向。层数越多,模型对语言结构的抽象能力越强,能捕捉更复杂的语义依赖。使用
AI大模型的诞生
基础模型
使用网络的海量数据,预训练,得到一个 基础模型。
基础模型,主要通过预测文本来学习,擅长语言生成,但缺乏明确的任务导向。
指令模型
在基础模型之上,用指令-答案对进行微调,让它能更好地遵循和执行人类的具体指令。
指令:就是你给它的具体任务和行动指南,
答案:则是它根据这些指令生成的响应结果。
指令决定答案,答案验证指令
对话式AI大模型
在指令模型基础上,用 人类偏好数据 ,调试模型,得到一个 对话式AI大模型
专门设计用来和人类进行自然语言交流,支持多轮对话,能记住上下文,能精准理解人类的意图和语义
具体路径为: (海量数据预训练) → 基础模型 → (指令微调) → 指令模型 → (对话数据微调) →对话式AI大模型
AI大模型属性
deepseek-v2 / qwen3
参照:https://ollama.com/
Size(参数)
单位:B
1B就是10亿个参数
参数越多,代表着模型的能力就越强,回答效果越好
ContextLength(上下文长度)
模型单次输入数据最大长度(以Token为单位),决定了模型处理长文本的能力。
单位:Token(词元),1个中文字符≈1~2个Token。
2K 约1000字
Layers(层数)
神经网络层数
层数越多,模型对语言结构的抽象能力越强,能捕捉更复杂的语义依赖。
层数增加显著提升性能,但也带来训练成本、推理延迟和显存压力的指数级增长。
Qwen3-235B-A22B
235B:总参数量
A22B:单次推理(或训练)时实际被激活并参与计算的参数量
阿里 千问模型 调用
官网调用
https://chat.qwen.ai/
注册账号:
名称:zhangxuan
电子邮箱:ainvshiwang@163.com
密码:私人通用密码
邮箱激活
API调用
登录[注册]阿里云 → 实名认证
阿里云百炼大模型服务平台
https://bailian.console.aliyun.com/?spm=a2c4g.11186623.0.0.7ab96323ZuK4JN&tab=model#/model-market
密钥管理 → 创建API-Key → 获取 ashScope API Key
配置API Key到环境变量
避免在代码里显式地配置API Key,降低泄露风险。
配置步骤 → Windows系统 → 系统属性
windows系统中(环境变量)
变量名:DASHSCOPE_API_KEY
变量值:填写你的 ashScope API Key
官方文档
https://help.aliyun.com/zh/model-studio/getting-started/
开始使用 → 首次调用通义千问API → OpenAI Python SDK
安装 OpenAI Python SDK
Deepseek模型调用
官网调用
https://chat.deepseek.com/
通过 手机号 注册登录
API调用
deepseek 开放平台
https://platform.deepseek.com/usage
deepseek API文档
https://api-docs.deepseek.com/zh-cn/
需要充值与实名认证
主流本地大模型部署工具
入门首选:Ollama/LM Studio(一键部署,零基础,跨平台,支持API);
开发主流:Text Generation Web UI(易用性+定制化平衡,支持多模型/多量化/插件/RAG);
深度定制:Hugging Face原生框架(源码级,灵活度无上限,适合AI开发者);
企业标准:Docker容器化部署(环境隔离,易于运维,适合私有化/团队协作);
超低硬件:端侧轻量化部署(LLaMA.cpp+超轻量模型,仅适合基础体验)。
- vLLM:专为生产环境设计的高性能推理引擎,特别适合企业级应用。它具有高吞吐量服务能力、连续批处理优化、内置优化算法等特性。
- TGI (Hugging Face):由 Hugging Face 推出的大模型服务框架,为部署开源大模型提供企业级解决方案。它与 Transform 库完美集成,支持 Tensor 并行推理。
- Ollama:这是一个命令行工具,旨在简化本地大语言模型的下载与运行。它支持多种主流模型(如 Llama 3、DeepSeek 和 Phi-3),跨平台(Windows、macOS 和 Linux),并提供与 OpenAI 格式一致的 API 接口。它适合希望以最少配置快速体验本地大语言模型的用户和开发者。Ollama 是完全开源的,适合开发者使用。
- LM Studio:提供图形用户界面 (GUI) 来管理和运行本地大语言模型,降低了非技术用户的上手门槛。它提供内置模型市场、一键下载常用模型、支持多个模型同时加载和切换,以及集成聊天界面测试模型效果。适合不喜欢命令行的 Windows 和 macOS 用户。
- GPT4ALL:支持 Windows、macOS 和 Ubuntu 系统的本地部署大模型客户端工具。其特点是用户无需 GPU 支持,仅需 CPU 即可运行。它提供了丰富的模型选择,并支持 Python 和 Node.js 的编程接口。
- LLM Studio:同样支持多平台操作系统,提供丰富的模型选择和用户界面。它注重用户界面的设计,界面友好直观。支持通过 API 调用的方式访问大模型。
- llama.cpp:这是一个将 Llama 模型移植到 C++ 的高性能实现,专门针对资源受限设备优化。它能在树莓派、旧笔记本甚至手机上运行,内存占用极低。
更多推荐

所有评论(0)