Ollama 的安装过程简单快捷,以下基于官方指南提供详细步骤。安装完成后,可通过 ollama --version 命令验证安装是否成功。‌1

下载安装程序:‌ 访问 Ollama 官方网站 ‌https://ollama.com/download‌,在下载页面选择适用于 Windows 的安装程序 ‌OllamaSetup.exe‌ 并下载。‌1

运行安装程序:‌ 双击下载的 ‌OllamaSetup.exe‌ 文件,按照安装向导的提示完成安装。默认安装路径为 ‌C:\Users<用户名>.ollama‌,如果需要自定义路径,可在命令行中运行 OllamaSetup.exe /DIR="D:\your\desired\path" 指定目录。‌12

验证安装:‌ 安装完成后,打开命令提示符或 PowerShell,输入 ollama --version。如果显示版本号(如 ollama version 0.xx.xx),则表示安装成功

第一步:安装 Ollama

Windows 系统安装:

  1. 直接下载安装

  2. 下载

    # 以管理员身份打开 PowerShell
    winget install Ollama.Ollama
    ollama --version

第二步:配置 Ollama 使用 Intel Arc GPU

你的 Intel Arc 显卡有 15.8GB 共享内存,需要配置才能使用:

1. 设置环境变量

powershell

# 设置使用 DirectML(Intel Arc 支持) setx OLLAMA_GPU_DEVICE "DirectML" setx OLLAMA_GPU_BLOCK_SIZE "512"

2. 配置 Ollama

创建或编辑配置文件:C:\Users\[你的用户名]\.ollama\config.json

{ "GPU": "DirectML", "num_gpu": 1, "num_thread": 8 }

第三步:选择适合你配置的模型

考虑到你的配置(16GB GPU内存 + 32GB系统内存),推荐以下模型:

推荐模型(按优先顺序):

  1. llama run llama3.2:3b
  2. llama run deepseek-coder:6.7b
  3. llama run qwen2.5:7b
  4. llama run mistral:7b

第四步:拉取和运行模型

1. 查看可用模型

bash

ollama list

2. 拉取模型(以 Llama 3.2 3B 为例)

bash

# 基本命令
ollama pull llama3.2:3b

# 或者直接运行(会自动下载)
ollama run llama3.2:3b

3. 量化版本选择(节省内存)

bash

# 如果内存紧张,使用量化版本
ollama pull llama3.2:3b-instruct-q4_K_M  # 4位量化,效果较好
ollama pull llama3.2:3b-instruct-q8_0    # 8位量化,质量更高

第五步:优化配置

1. 创建自定义模型文件

创建一个 Modelfile

dockerfile

FROM llama3.2:3b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
SYSTEM """你是一个有帮助的AI助手。"""

2. 创建自定义模型

bash

ollama create my-model -f ./Modelfile ollama run my-model

第六步:性能优化设置

1. 调整 Ollama 服务设置

编辑 C:\Program Files\Ollama\config.json

json

{
  "runners": {
    "llama": {
      "num_ctx": 4096,
      "num_batch": 512,
      "num_gpu_layers": 20,  # 使用 GPU 加速的层数
      "main_gpu": 0,
      "low_vram": false
    }
  }
}

2. 启动参数优化

bash

# 设置 GPU 层数(根据你的 15.8GB 显存)
set OLLAMA_NUM_GPU_LAYERS=20

# 设置线程数(根据你的 CPU)
set OLLAMA_NUM_THREADS=8

第七步:测试和验证

1. 简单测试

bash

ollama run llama3.2:3b "你好,介绍一下你自己"

2. 性能测试

bash

# 查看 GPU 使用情况
ollama ps

# 查看运行日志
ollama logs

第八步:使用 Web UI(可选)

1. 安装 Open WebUI(推荐)

bash

# 使用 Docker
docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

2. 或使用 Ollama WebUI

访问:http://localhost:11434

针对 Intel Arc 的特殊配置

1. 安装 Intel 驱动

确保安装最新显卡驱动:

  • 从 Intel 官网下载最新 Arc 显卡驱动

2. 验证 GPU 加速

bash

# 检查 Ollama 是否使用 GPU
ollama run llama3.2:3b --verbose

# 应该看到类似输出:
# llama_model_loader: using DirectML backend

故障排除

1. 如果模型下载慢

bash

# 设置镜像源
setx OLLAMA_HOST "https://mirror.ghproxy.com/https://ollama.com"

2. 如果内存不足

bash

# 使用更小的量化版本
ollama pull llama3.2:1b
# 或
ollama pull tinyllama:1.1b

3. 如果 GPU 不工作

bash

# 检查 GPU 支持
ollama serve --verbose
# 查看日志中是否有 DirectML 相关输出

推荐配置方案

基于你的硬件:

  1. 日常使用:Llama 3.2 3B(平衡速度和效果)

  2. 编程开发:DeepSeek Coder 6.7B(4位量化版)

  3. 中文对话:Qwen2.5 7B(4位量化版)

开始建议:

bash

# 先试试这个
ollama run llama3.2:3b

# 如果运行顺畅,再尝试更大的
ollama run qwen2.5:7b-q4_K_M
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐