本地部署大模型步骤

创建一个Modelfiledockerfile复制下载SYSTEM """你是一个有帮助的AI助手。"""bash复制下载。

weixin_45986466

827人浏览 · 2026-01-07 21:00:31

weixin_45986466 · 2026-01-07 21:00:31 发布

Ollama 的安装过程简单快捷，以下基于官方指南提供详细步骤。安装完成后，可通过 ollama --version 命令验证安装是否成功。‌1

‌下载安装程序：‌ 访问 Ollama 官方网站 ‌https://ollama.com/download‌，在下载页面选择适用于 Windows 的安装程序 ‌OllamaSetup.exe‌ 并下载。‌1

‌运行安装程序：‌ 双击下载的 ‌OllamaSetup.exe‌ 文件，按照安装向导的提示完成安装。默认安装路径为 ‌C:\Users<用户名>.ollama‌，如果需要自定义路径，可在命令行中运行 OllamaSetup.exe /DIR="D:\your\desired\path" 指定目录。‌12

‌验证安装：‌ 安装完成后，打开命令提示符或 PowerShell，输入 ollama --version。如果显示版本号（如 ollama version 0.xx.xx），则表示安装成功

第一步：安装 Ollama

Windows 系统安装：

直接下载安装：
- 访问：https://ollama.com/download/windows
- 下载安装包并运行

下载

# 以管理员身份打开 PowerShell
winget install Ollama.Ollama
ollama --version

第二步：配置 Ollama 使用 Intel Arc GPU

你的 Intel Arc 显卡有 15.8GB 共享内存，需要配置才能使用：

1. 设置环境变量

powershell

# 设置使用 DirectML（Intel Arc 支持） setx OLLAMA_GPU_DEVICE "DirectML" setx OLLAMA_GPU_BLOCK_SIZE "512"

2. 配置 Ollama

创建或编辑配置文件：C:\Users\[你的用户名]\.ollama\config.json

{ "GPU": "DirectML", "num_gpu": 1, "num_thread": 8 }

第三步：选择适合你配置的模型

考虑到你的配置（16GB GPU内存 + 32GB系统内存），推荐以下模型：

第四步：拉取和运行模型

1. 查看可用模型

bash

ollama list

2. 拉取模型（以 Llama 3.2 3B 为例）

bash

# 基本命令
ollama pull llama3.2:3b

# 或者直接运行（会自动下载）
ollama run llama3.2:3b

3. 量化版本选择（节省内存）

bash

# 如果内存紧张，使用量化版本
ollama pull llama3.2:3b-instruct-q4_K_M  # 4位量化，效果较好
ollama pull llama3.2:3b-instruct-q8_0    # 8位量化，质量更高

第五步：优化配置

1. 创建自定义模型文件

创建一个 Modelfile：

dockerfile

FROM llama3.2:3b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
SYSTEM """你是一个有帮助的AI助手。"""

2. 创建自定义模型

bash

ollama create my-model -f ./Modelfile ollama run my-model

第六步：性能优化设置

1. 调整 Ollama 服务设置

编辑 C:\Program Files\Ollama\config.json：

json

{
  "runners": {
    "llama": {
      "num_ctx": 4096,
      "num_batch": 512,
      "num_gpu_layers": 20,  # 使用 GPU 加速的层数
      "main_gpu": 0,
      "low_vram": false
    }
  }
}

2. 启动参数优化

bash

# 设置 GPU 层数（根据你的 15.8GB 显存）
set OLLAMA_NUM_GPU_LAYERS=20

# 设置线程数（根据你的 CPU）
set OLLAMA_NUM_THREADS=8

第七步：测试和验证

1. 简单测试

bash

ollama run llama3.2:3b "你好，介绍一下你自己"

2. 性能测试

bash

# 查看 GPU 使用情况
ollama ps

# 查看运行日志
ollama logs

第八步：使用 Web UI（可选）

1. 安装 Open WebUI（推荐）

bash

# 使用 Docker
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

2. 或使用 Ollama WebUI

访问：http://localhost:11434

针对 Intel Arc 的特殊配置

1. 安装 Intel 驱动

确保安装最新显卡驱动：

从 Intel 官网下载最新 Arc 显卡驱动

2. 验证 GPU 加速

bash

# 检查 Ollama 是否使用 GPU
ollama run llama3.2:3b --verbose

# 应该看到类似输出：
# llama_model_loader: using DirectML backend

故障排除

1. 如果模型下载慢

bash

# 设置镜像源
setx OLLAMA_HOST "https://mirror.ghproxy.com/https://ollama.com"

2. 如果内存不足

bash

# 使用更小的量化版本
ollama pull llama3.2:1b
# 或
ollama pull tinyllama:1.1b

3. 如果 GPU 不工作

bash

# 检查 GPU 支持
ollama serve --verbose
# 查看日志中是否有 DirectML 相关输出

所有评论(0)

查看更多评论

weixin_45986466

@weixin_45986466

已为社区贡献2条内容

本地部署大模型步骤

weixin_45986466

第一步：安装 Ollama

Windows 系统安装：

第二步：配置 Ollama 使用 Intel Arc GPU

1. 设置环境变量

2. 配置 Ollama

第三步：选择适合你配置的模型

推荐模型（按优先顺序）：

第四步：拉取和运行模型

1. 查看可用模型

2. 拉取模型（以 Llama 3.2 3B 为例）

3. 量化版本选择（节省内存）

第五步：优化配置

1. 创建自定义模型文件

2. 创建自定义模型

第六步：性能优化设置

1. 调整 Ollama 服务设置

2. 启动参数优化

第七步：测试和验证

1. 简单测试

2. 性能测试

第八步：使用 Web UI（可选）

1. 安装 Open WebUI（推荐）

2. 或使用 Ollama WebUI

针对 Intel Arc 的特殊配置

1. 安装 Intel 驱动

2. 验证 GPU 加速

故障排除

1. 如果模型下载慢

2. 如果内存不足

3. 如果 GPU 不工作

推荐配置方案

所有评论(0)

weixin_45986466