Ollama 全面使用指南：零基础在本地部署主流大语言模型，轻松实现私有化 AI 对话与内容生成

Ollama 是一个开源的大型语言模型（LLM）运行框架，它能让你非常方便地在本地计算机上部署和运行各种主流大模型，无需复杂的配置即可享受 AI 对话、内容生成等能力，并确保数据的私密性。下面这份全面指南将带你完成从安装到使用的每一步。

独隅

451人浏览 · 2026-01-22 14:08:55

独隅 · 2026-01-22 14:08:55 发布

在这里插入图片描述

Ollama 的安装和使用教程的全面详细指南

🛠️ 安装前的准备
📥 安装 Ollama
🚀 基本使用：快速开始
- 1. 拉取并运行模型
- 2. 常用命令一览
🔧 进阶使用：API 与集成
- 1. API 调用
- 2. 使用 WebUI 界面
⚙️ 配置与问题排查
- 修改模型存储位置
- 常见问题

Ollama 是一个开源的大型语言模型（LLM）运行框架，它能让你非常方便地在本地计算机上部署和运行各种主流大模型，无需复杂的配置即可享受 AI 对话、内容生成等能力，并确保数据的私密性。

下面这份全面指南将带你完成从安装到使用的每一步。

🛠️ 安装前的准备

在安装 Ollama 之前，请先了解它对硬件的基本要求，这直接决定了你能流畅运行何种规模的模型。

硬件组件	最低要求	推荐配置（为了良好体验）
内存 (RAM)	8 GB（可运行 1B-7B 参数模型）	16 GB 或以上（可流畅运行 13B 参数模型）
显卡 (GPU)	集成显卡（使用 CPU 模式运行）	NVIDIA 独立显卡（显存 ≥ 8GB）（GPU 能极大加速推理速度）
存储空间	至少 10 GB 可用空间（用于安装和基础模型）	50 GB 或更多（模型文件通常很大，例如一个 7B 模型约 4-5GB）
操作系统	Windows 10/11, macOS 10.14+, 或主流 Linux 发行版	最新版本的操作系统

注：以上参数为通用建议，具体取决于你选择的模型。例如，运行 deepseek-r1:1.5b 这类小模型，4GB 内存即可。

📥 安装 Ollama

Ollama 支持多种操作系统，安装过程非常简单。

Windows / macOS

访问 Ollama 官网或国内中文站下载对应的安装程序，双击运行即可完成安装。

Linux

在终端中执行官方的一键安装脚本是最快捷的方式。

curl -fsSL https://ollama.com/install.sh | sh

验证安装

安装完成后，打开终端（或命令提示符/PowerShell），输入以下命令验证是否成功：

ollama --version

如果正确显示版本号，说明安装成功。

🚀 基本使用：快速开始

安装好后，最快体验 Ollama 的方式就是通过命令行直接运行一个模型。

1. 拉取并运行模型

使用 ollama run 命令。例如，要运行 Meta 发布的 Llama 3 模型，只需输入：

ollama run llama3

Ollama 会自动从模型库下载所需的文件。下载完成后，会直接进入交互式对话界面，你可以开始输入问题。

2. 常用命令一览

掌握以下几个命令，就能高效管理你的本地模型：

ollama list：列出本地已下载的所有模型。
ollama pull <模型名>：仅下载模型，但不立即运行（例如 ollama pull qwen2:7b）。
ollama rm <模型名>：删除本地不再需要的模型，释放磁盘空间。
ollama ps：查看当前正在运行的模型及其资源占用情况。

🔧 进阶使用：API 与集成

Ollama 不仅是命令行工具，更是一个本地 AI 服务器。

1. API 调用

Ollama 在安装后会自动在后台启动一个服务，默认监听 http://localhost:11434。你可以通过标准的 HTTP API 与它交互，这让你可以用任何编程语言来调用模型。
例如，使用 curl 进行文本生成：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "请用中文介绍一下你自己",
  "stream": false
}'

更酷的是，Ollama 提供了与 OpenAI 格式兼容的 API 端点。这意味着许多为 OpenAI API 设计的工具和应用（如 ChatGPT Next Web）可以直接连接到你的本地 Ollama 服务。

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1/', 
    api_key='ollama', # API密钥可任意填写，本地服务通常不验证
)

chat_completion = client.chat.completions.create(
    messages=[{'role': 'user', 'content': '你好，请说一段话。'}],
    model='llama3',
)
print(chat_completion.choices[0].message.content)

2. 使用 WebUI 界面

如果你不习惯命令行，可以部署 Open WebUI 等图形界面。它提供了类似 ChatGPT 的友好体验，可以通过 Docker 快速安装。

docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

安装后，在浏览器中访问 http://localhost:3000 即可使用。

⚙️ 配置与问题排查

修改模型存储位置

默认情况下，模型会下载到系统盘。如果 C 盘空间紧张，可以通过设置环境变量 OLLAMA_MODELS 来更改存储路径。

Windows：在“系统属性”中添加名为 OLLAMA_MODELS 的用户环境变量，值设为新的目标路径（如 D:\ollama\models）。
Linux/macOS：将以下行添加到 ~/.bashrc 或 ~/.zshrc 文件中，然后执行 source ~/.bashrc。
```
export OLLAMA_MODELS=/path/to/your/custom/models/directory
```

常见问题

模型下载缓慢或中断：由于网络原因，下载大模型时可能不稳定。可以尝试多次重新执行 ollama run 命令，有时重试能恢复下载速度。
服务未启动：如果遇到连接错误，请确保 Ollama 服务正在运行。在终端中输入 ollama serve 可启动服务。

希望这份指南能帮助你顺利开启本地大模型之旅！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

文科本科论文怎么写？2026 年图表、流程图与思维导图规范一次讲清

2048 AI社区

面向人机协同的AI Agent设计范式：理论框架与架构实践

本文提出一种基于人机协同理念的AI Agent设计范式，针对当前系统存在的意图理解模糊、职责边界不清等核心挑战，构建了包含三大原则和四层架构的解决方案。该范式通过不确定性分层理论，明确AI与人类在不同任务中的分工：AI处理技术性不确定（如模式识别），人类负责认知性不确定（如伦理判断）。系统设计强调确定性组件封装、不确定性智能处理和人本必然参与，形成包含战略层、能力层、交互层和保障层的完整架构，为构