⚡️ Ollama 极简入门：本地部署大语言模型实战指南

摘要： Ollama是一款高效便捷的本地大语言模型（LLM）运行时工具，支持Windows、macOS和Linux系统，可轻松管理Llama 3、Qwen等开源模型。安装只需下载官方安装包或执行一键脚本，通过ollama pull命令下载模型。提供三种调用方式：交互式命令行对话、单次命令提问和HTTP API接口（默认端口11434）。常用命令包括模型列表查看（ollama list）、删除（ol

wu wendy

965人浏览 · 2026-01-09 08:00:00

wu wendy · 2026-01-09 08:00:00 发布

文章目录

⚡️ Ollama 极简入门：本地部署大语言模型实战指南

⚡️ Ollama 极简入门：本地部署大语言模型实战指南

在 AI 时代，能在本地电脑上流畅运行大模型（LLM）不仅是极客的浪漫，更是隐私安全和低成本开发的刚需。Ollama 是目前最简洁、最高效的本地 LLM 运行时工具，它能让你像使用 Docker 一样轻松管理和运行 Llama 3、Mistral 等开源模型。

本文将带你快速完成 Ollama 的安装、模型下载及基础调用。

1. 环境安装 (Installation)

Ollama 对主流操作系统的支持非常友好。

🖥️ Windows & macOS

直接访问官网下载安装包，傻瓜式安装即可。

下载地址：https://ollama.com/download
验证安装：安装完成后打开终端（Terminal/PowerShell），输入 ollama，若显示帮助信息即为成功。

🐧 Linux

Linux 用户可以通过官方的一键脚本快速安装：

curl -fsSL [https://ollama.com/install.sh](https://ollama.com/install.sh) | sh

注：Ollama 对 NVIDIA 显卡有很好的原生支持，安装脚本会自动配置驱动适配。

2. 下载本地模型 (Download Models)

安装完成后，你需要从 Ollama 的模型库中拉取模型。

浏览模型库

访问 Ollama Library 可以查看所有支持的模型。目前最推荐的是 Meta 的 Llama 3 或阿里的 Qwen (通义千问)。

拉取模型命令

使用 pull 命令将模型下载到本地（不立即运行）：

# 下载 Llama 3 (默认 8B 版本)
ollama pull llama3

# 下载通义千问 7B 版本
ollama pull qwen:7b

3. 基础调用与交互 (Basic Usage)

Ollama 提供了多种调用模型的方式，既可以用于日常聊天，也可以用于开发调试。

方式一：命令行交互模式 (Interactive)

这是体验最直接的方式，进入一个类似 ChatGPT 的对话框：

ollama run llama3

退出对话：输入 /bye 或者按 Ctrl + d

方式二：单次命令行调用 (One-shot)

如果你只需要模型回答一个问题并立即结束，可以直接将提示词跟在命令后面：

ollama run llama3 "请用一句话解释什么是量子纠缠"

或者通过管道符传入内容（适合处理文件）：

echo "Hello AI" | ollama run llama3

方式三：HTTP API 调用 (API)

Ollama 默认在后台运行并监听 11434 端口。你可以通过 HTTP 请求直接调用，非常适合集成到你的代码中。

示例：使用 curl 发送请求

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "为什么天空是蓝色的？",
  "stream": false
}'

stream: 设置为 false 表示等待生成完毕后一次性返回 JSON；设置为 true 则为流式输出。

4. Ollama 常用命令速查 (Cheatsheet)

掌握以下几条高频命令，即可满足 90% 的日常管理需求。

命令	说明	示例
`ollama list`	查看列表：显示本地已安装的所有模型及大小	`ollama list`
`ollama pull`	下载/更新：从远程仓库拉取或更新模型	`ollama pull llama3`
`ollama run`	运行：启动模型进行对话（若没下载会自动拉取）	`ollama run llama3`
`ollama rm`	删除：删除本地模型，释放磁盘空间	`ollama rm llama3`
`ollama cp`	复制：复制一个模型（常用于创建自定义配置的备份）	`ollama cp llama3 my-model`
`ollama show`	详情：查看模型的详细信息（如参数文件、Prompt模板）	`ollama show --modelfile llama3`

💡 常见问题 Tips

显存不够怎么办？
Ollama 会自动检测硬件。如果显存不足，它会将部分层加载到内存（RAM）中利用 CPU 计算，虽然速度变慢，但依然能跑起来。
模型存在哪里？
- macOS: ~/.ollama/models
- Linux: /usr/share/ollama/.ollama/models
- Windows: C:\Users\%USERNAME%\.ollama\models

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Gemini cli 源码分析之工具篇-WebSearch工具

Gemini CLI中的WebSearch工具是一个用于在网络上检索信息的模块，通过调用搜索引擎API或爬虫技术获取网页内容。该工具通常用于增强AI生成内容的准确性和时效性。

2048 AI社区

Windows 结合最新版 ComfyUI 部署图像大模型详细步骤

确保系统已安装 Python 3.10 或更高版本，推荐从 Python 官网下载安装包并勾选“Add Python to PATH”选项。Git 用于克隆仓库，可从 Git 官网下载安装。可从 Hugging Face 或 CivitAI 获取模型文件。确保已安装匹配的 NVIDIA 驱动和 CUDA 工具包。将 Stable Diffusion 模型（如。重启服务后可在界面中管理插件。即可使用

2048 AI社区

agent系统：架构、应用与评估全景综述

agent微调日益以轨迹为中心：模型在包含工具调用、中间检查和纠正失败的轨迹上调优，使模型不仅学会回答，还学会在约束下操作——规划、行动、验证和恢复。在以LLM为中心的agent之前，许多生产系统依赖传统RGB组件：基于规则的策略（if-then决策逻辑）、基于图的规划器（任务图、工作流DAG、FSM）和行为树风格控制（分层、反应式策略）。开放挑战包括工具操作的验证和护栏、可扩展的记忆和上下文管理