AI大模型的诞生

基础模型

​ 使用网络的海量数据,预训练,得到一个 基础模型。

​ 基础模型,主要通过预测文本来学习,擅长语言生成,但缺乏明确的任务导向。

指令模型

​ 在基础模型之上,用‌指令-答案对‌进行微调,让它能更好地遵循和执行人类的具体指令。

​ 指令:就是你给它的具体任务和行动指南,

​ 答案:则是它根据这些指令生成的响应结果。

​ 指令决定答案,答案验证指令

对话式AI大模型

​ 在指令模型基础上,用 人类偏好数据 ,调试模型,得到一个 对话式AI大模型

​ 专门设计用来和人类进行自然语言交流,支持多轮对话,能记住上下文,能精准理解人类的意图和语义

具体路径为: (海量数据预训练) → 基础模型 → (指令微调) → 指令模型 → (对话数据微调) →对话式AI大模型

AI大模型属性

deepseek-v2 / qwen3

参照:https://ollama.com/

Size(参数)

​ 单位:B

​ 1B就是10亿个参数

​ 参数越多,代表着模型的能力就越强,回答效果越好

ContextLength(上下文长度)

​ 模型单次输入数据最大长度(以Token为单位),决定了模型处理长文本的能力。

​ 单位:Token(词元),1个中文字符≈1~2个Token。

​ 2K 约1000字

Layers(层数)

​ 神经网络层数

​ 层数越多,模型对语言结构的抽象能力越强,能捕捉更复杂的语义依赖。

​ 层数增加显著提升性能,但也带来训练成本、推理延迟和显存压力的指数级增长。

Qwen3-235B-A22B

​ 235B:总参数量

​ A22B:单次推理(或训练)时实际被激活并参与计算的参数量

阿里 千问模型 调用

官网调用

​ https://chat.qwen.ai/

​ 注册账号:

​ 名称:zhangxuan

​ 电子邮箱:ainvshiwang@163.com

​ 密码:私人通用密码

​ 邮箱激活

API调用

​ 登录[注册]阿里云 → 实名认证

阿里云百炼大模型服务平台

​ https://bailian.console.aliyun.com/?spm=a2c4g.11186623.0.0.7ab96323ZuK4JN&tab=model#/model-market

密钥管理 → 创建API-Key → 获取 ashScope API Key

配置API Key到环境变量

​ 避免在代码里显式地配置API Key,降低泄露风险。

​ 配置步骤 → Windows系统 → 系统属性

​ windows系统中(环境变量)

​ 变量名:DASHSCOPE_API_KEY

​ 变量值:填写你的 ashScope API Key

官方文档

​ https://help.aliyun.com/zh/model-studio/getting-started/

​ 开始使用 → 首次调用通义千问API → OpenAI Python SDK

安装 OpenAI Python SDK

Deepseek模型调用

官网调用

​ https://chat.deepseek.com/

​ 通过 手机号 注册登录

API调用

deepseek 开放平台

​ https://platform.deepseek.com/usage

deepseek API文档

​ https://api-docs.deepseek.com/zh-cn/

需要充值与实名认证

主流本地大模型部署工具

入门首选:Ollama/LM Studio(一键部署,零基础,跨平台,支持API);
开发主流:Text Generation Web UI(易用性+定制化平衡,支持多模型/多量化/插件/RAG);
深度定制:Hugging Face原生框架(源码级,灵活度无上限,适合AI开发者);
企业标准:Docker容器化部署(环境隔离,易于运维,适合私有化/团队协作);
超低硬件:端侧轻量化部署(LLaMA.cpp+超轻量模型,仅适合基础体验)。

  • vLLM‌:专为生产环境设计的高性能推理引擎,特别适合企业级应用。它具有高吞吐量服务能力、连续批处理优化、内置优化算法等特性。
  • TGI (Hugging Face)‌:由 Hugging Face 推出的大模型服务框架,为部署开源大模型提供企业级解决方案。它与 Transform 库完美集成,支持 Tensor 并行推理。
  • Ollama‌:这是一个命令行工具,旨在简化本地大语言模型的下载与运行。它支持多种主流模型(如 Llama 3、DeepSeek 和 Phi-3),跨平台(Windows、macOS 和 Linux),并提供与 OpenAI 格式一致的 API 接口。它适合希望以最少配置快速体验本地大语言模型的用户和开发者。Ollama 是完全开源的,适合开发者使用。
  • LM Studio‌:提供图形用户界面 (GUI) 来管理和运行本地大语言模型,降低了非技术用户的上手门槛。它提供内置模型市场、一键下载常用模型、支持多个模型同时加载和切换,以及集成聊天界面测试模型效果。适合不喜欢命令行的 Windows 和 macOS 用户。
  • GPT4ALL‌:支持 Windows、macOS 和 Ubuntu 系统的本地部署大模型客户端工具。其特点是用户无需 GPU 支持,仅需 CPU 即可运行。它提供了丰富的模型选择,并支持 Python 和 Node.js 的编程接口。
  • LLM Studio‌:同样支持多平台操作系统,提供丰富的模型选择和用户界面。它注重用户界面的设计,界面友好直观。支持通过 API 调用的方式访问大模型。
  • llama.cpp‌:这是一个将 Llama 模型移植到 C++ 的高性能实现,专门针对资源受限设备优化。它能在树莓派、旧笔记本甚至手机上运行,内存占用极低。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐