01AI大模型

专门设计用来和人类进行自然语言交流，支持多轮对话，能记住上下文，能精准理解人类的意图和语义。入门首选：Ollama/LM Studio（一键部署，零基础，跨平台，支持API）；在指令模型基础上，用人类偏好数据，调试模型，得到一个对话式AI大模型。基础模型，主要通过预测文本来学习，擅长语言生成，但缺乏明确的任务导向。层数越多，模型对语言结构的抽象能力越强，能捕捉更复杂的语义依赖。使用

ainvshi

349人浏览 · 2026-02-17 10:03:46

ainvshi · 2026-02-17 10:03:46 发布

AI大模型的诞生

基础模型

使用网络的海量数据，预训练，得到一个基础模型。

基础模型，主要通过预测文本来学习，擅长语言生成，但缺乏明确的任务导向。

指令模型‌

在基础模型之上，用‌指令-答案对‌进行微调，让它能更好地遵循和执行人类的具体指令。

指令：就是你给它的具体任务和行动指南，

答案：则是它根据这些指令生成的响应结果。

指令决定答案，答案验证指令

对话式AI大模型‌

在指令模型基础上，用人类偏好数据，调试模型，得到一个对话式AI大模型

专门设计用来和人类进行自然语言交流，支持多轮对话，能记住上下文，能精准理解人类的意图和语义

具体路径为： (海量数据预训练) → 基础模型 → (指令微调) → 指令模型 → (对话数据微调) →对话式AI大模型

AI大模型属性

deepseek-v2 / qwen3

参照：https://ollama.com/

Size（参数）

单位：B

1B就是10亿个参数

参数越多，代表着模型的能力就越强，回答效果越好

ContextLength（上下文长度）

模型单次输入数据最大长度（以Token为单位），决定了模型处理长文本的能力。

单位：Token（词元），1个中文字符≈1~2个Token。

2K 约1000字

Layers（层数）

神经网络层数

层数越多，模型对语言结构的抽象能力越强，能捕捉更复杂的语义依赖。

层数增加显著提升性能，但也带来训练成本、推理延迟和显存压力的指数级增长。

Qwen3-235B-A22B

235B：总参数量

A22B：单次推理（或训练）时实际被激活并参与计算的参数量

阿里千问模型调用

官网调用

https://chat.qwen.ai/

注册账号：

名称：zhangxuan

电子邮箱：ainvshiwang@163.com

密码：私人通用密码

邮箱激活

API调用

阿里云百炼大模型服务平台

https://bailian.console.aliyun.com/?spm=a2c4g.11186623.0.0.7ab96323ZuK4JN&tab=model#/model-market

密钥管理 → 创建API-Key → 获取 ashScope API Key

配置API Key到环境变量

避免在代码里显式地配置API Key，降低泄露风险。

配置步骤 → Windows系统 → 系统属性

windows系统中（环境变量）

变量名：DASHSCOPE_API_KEY

变量值：填写你的 ashScope API Key

官方文档

https://help.aliyun.com/zh/model-studio/getting-started/

开始使用 → 首次调用通义千问API → OpenAI Python SDK

安装 OpenAI Python SDK

Deepseek模型调用

官网调用

https://chat.deepseek.com/

通过手机号注册登录

API调用

deepseek 开放平台

https://platform.deepseek.com/usage

deepseek API文档

https://api-docs.deepseek.com/zh-cn/

需要充值与实名认证

主流本地大模型部署工具

入门首选：Ollama/LM Studio（一键部署，零基础，跨平台，支持API）；
开发主流：Text Generation Web UI（易用性+定制化平衡，支持多模型/多量化/插件/RAG）；
深度定制：Hugging Face原生框架（源码级，灵活度无上限，适合AI开发者）；
企业标准：Docker容器化部署（环境隔离，易于运维，适合私有化/团队协作）；
超低硬件：端侧轻量化部署（LLaMA.cpp+超轻量模型，仅适合基础体验）。

‌vLLM‌：专为生产环境设计的高性能推理引擎，特别适合企业级应用。它具有高吞吐量服务能力、连续批处理优化、内置优化算法等特性。
TGI (Hugging Face)‌：由 Hugging Face 推出的大模型服务框架，为部署开源大模型提供企业级解决方案。它与 Transform 库完美集成，支持 Tensor 并行推理。
Ollama‌：这是一个命令行工具，旨在简化本地大语言模型的下载与运行。它支持多种主流模型（如 Llama 3、DeepSeek 和 Phi-3），跨平台（Windows、macOS 和 Linux），并提供与 OpenAI 格式一致的 API 接口。它适合希望以最少配置快速体验本地大语言模型的用户和开发者。Ollama 是完全开源的，适合开发者使用。
‌LM Studio‌：提供图形用户界面 (GUI) 来管理和运行本地大语言模型，降低了非技术用户的上手门槛。它提供内置模型市场、一键下载常用模型、支持多个模型同时加载和切换，以及集成聊天界面测试模型效果。适合不喜欢命令行的 Windows 和 macOS 用户。
‌GPT4ALL‌：支持 Windows、macOS 和 Ubuntu 系统的本地部署大模型客户端工具。其特点是用户无需 GPU 支持，仅需 CPU 即可运行。它提供了丰富的模型选择，并支持 Python 和 Node.js 的编程接口。
‌LLM Studio‌：同样支持多平台操作系统，提供丰富的模型选择和用户界面。它注重用户界面的设计，界面友好直观。支持通过 API 调用的方式访问大模型。
‌llama.cpp‌：这是一个将 Llama 模型移植到 C++ 的高性能实现，专门针对资源受限设备优化。它能在树莓派、旧笔记本甚至手机上运行，内存占用极低。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Markdown 语法进阶：用 Mermaid 画流程图 / 时序图

Mermaid 最大的价值，是“让绘图融入Markdown撰写流程”，无需额外工具，用简单的代码就能画出专业、清晰的流程图和时序图。对于技术人来说，无论是写技术博客、接口文档、需求文档，还是记笔记梳理逻辑，掌握它都能大幅提升效率，让你的文档“图文并茂”更有质感。本文重点拆解了最常用的流程图和时序图，从基础语法到进阶技巧，再到实用案例，所有代码均可直接复制使用。建议新手先从简单案例入手，熟悉节点、连

2048 AI社区

Langchain学习（6）：文档加载器 - CSV、JSON与文本处理详解

本文详细介绍了LangChain中三种核心文档加载器的使用技巧。CSVLoader支持结构化表格数据加载，提供load()和lazy_load()两种模式；JSONLoader通过jq表达式灵活提取JSON数据，适用于单对象、数组和JSON Lines格式；TextLoader结合RecursiveCharacterTextSplitter实现文本智能分块。每种加载器都包含参数解析、场景适配和完整