本地部署大模型步骤
创建一个Modelfiledockerfile复制下载SYSTEM """你是一个有帮助的AI助手。"""bash复制下载。
Ollama 的安装过程简单快捷,以下基于官方指南提供详细步骤。安装完成后,可通过 ollama --version 命令验证安装是否成功。1
下载安装程序: 访问 Ollama 官方网站 https://ollama.com/download,在下载页面选择适用于 Windows 的安装程序 OllamaSetup.exe 并下载。1
运行安装程序: 双击下载的 OllamaSetup.exe 文件,按照安装向导的提示完成安装。默认安装路径为 C:\Users<用户名>.ollama,如果需要自定义路径,可在命令行中运行 OllamaSetup.exe /DIR="D:\your\desired\path" 指定目录。12
验证安装: 安装完成后,打开命令提示符或 PowerShell,输入 ollama --version。如果显示版本号(如 ollama version 0.xx.xx),则表示安装成功
第一步:安装 Ollama
Windows 系统安装:
-
直接下载安装:
-
下载安装包并运行
-
下载
# 以管理员身份打开 PowerShell winget install Ollama.Ollama ollama --version
第二步:配置 Ollama 使用 Intel Arc GPU
你的 Intel Arc 显卡有 15.8GB 共享内存,需要配置才能使用:
1. 设置环境变量
powershell
# 设置使用 DirectML(Intel Arc 支持) setx OLLAMA_GPU_DEVICE "DirectML" setx OLLAMA_GPU_BLOCK_SIZE "512"
2. 配置 Ollama
创建或编辑配置文件:C:\Users\[你的用户名]\.ollama\config.json
{ "GPU": "DirectML", "num_gpu": 1, "num_thread": 8 }
第三步:选择适合你配置的模型
考虑到你的配置(16GB GPU内存 + 32GB系统内存),推荐以下模型:
推荐模型(按优先顺序):
-
llama run llama3.2:3b
-
llama run deepseek-coder:6.7b
-
llama run qwen2.5:7b
-
llama run mistral:7b
第四步:拉取和运行模型
1. 查看可用模型
bash
ollama list
2. 拉取模型(以 Llama 3.2 3B 为例)
bash
# 基本命令 ollama pull llama3.2:3b # 或者直接运行(会自动下载) ollama run llama3.2:3b
3. 量化版本选择(节省内存)
bash
# 如果内存紧张,使用量化版本 ollama pull llama3.2:3b-instruct-q4_K_M # 4位量化,效果较好 ollama pull llama3.2:3b-instruct-q8_0 # 8位量化,质量更高
第五步:优化配置
1. 创建自定义模型文件
创建一个 Modelfile:
dockerfile
FROM llama3.2:3b PARAMETER temperature 0.7 PARAMETER top_p 0.9 PARAMETER num_ctx 4096 SYSTEM """你是一个有帮助的AI助手。"""
2. 创建自定义模型
bash
ollama create my-model -f ./Modelfile ollama run my-model
第六步:性能优化设置
1. 调整 Ollama 服务设置
编辑 C:\Program Files\Ollama\config.json:
json
{
"runners": {
"llama": {
"num_ctx": 4096,
"num_batch": 512,
"num_gpu_layers": 20, # 使用 GPU 加速的层数
"main_gpu": 0,
"low_vram": false
}
}
}
2. 启动参数优化
bash
# 设置 GPU 层数(根据你的 15.8GB 显存) set OLLAMA_NUM_GPU_LAYERS=20 # 设置线程数(根据你的 CPU) set OLLAMA_NUM_THREADS=8
第七步:测试和验证
1. 简单测试
bash
ollama run llama3.2:3b "你好,介绍一下你自己"
2. 性能测试
bash
# 查看 GPU 使用情况 ollama ps # 查看运行日志 ollama logs
第八步:使用 Web UI(可选)
1. 安装 Open WebUI(推荐)
bash
# 使用 Docker docker run -d -p 3000:8080 \ -v open-webui:/app/backend/data \ --name open-webui \ --restart always \ ghcr.io/open-webui/open-webui:main
2. 或使用 Ollama WebUI
针对 Intel Arc 的特殊配置
1. 安装 Intel 驱动
确保安装最新显卡驱动:
-
从 Intel 官网下载最新 Arc 显卡驱动
2. 验证 GPU 加速
bash
# 检查 Ollama 是否使用 GPU ollama run llama3.2:3b --verbose # 应该看到类似输出: # llama_model_loader: using DirectML backend
故障排除
1. 如果模型下载慢
bash
# 设置镜像源 setx OLLAMA_HOST "https://mirror.ghproxy.com/https://ollama.com"
2. 如果内存不足
bash
# 使用更小的量化版本 ollama pull llama3.2:1b # 或 ollama pull tinyllama:1.1b
3. 如果 GPU 不工作
bash
# 检查 GPU 支持 ollama serve --verbose # 查看日志中是否有 DirectML 相关输出
推荐配置方案
基于你的硬件:
-
日常使用:Llama 3.2 3B(平衡速度和效果)
-
编程开发:DeepSeek Coder 6.7B(4位量化版)
-
中文对话:Qwen2.5 7B(4位量化版)
开始建议:
bash
# 先试试这个 ollama run llama3.2:3b # 如果运行顺畅,再尝试更大的 ollama run qwen2.5:7b-q4_K_M
更多推荐



所有评论(0)