ollama v0.12.0 发布：引入云端大模型预览，支持本地与云端无缝融合

在 v0.12.0 中，Ollama 首次提供了云端推理能力，开发者可以运行体量更大的模型，而无需担心本地机器显存容量不足。这不仅解决了本地硬件性能不足的问题，还统一了 API 调用方式，使得开发者能够像使用本地模型一样，轻松调用超大规模云端模型。提供推理计算，同时保持了 Ollama 一贯的隐私与安全政策——Ollama v0.12.0 的发布，标志着该平台从本地推理走向了。下载最新 v0.12

2401_89221867

437人浏览 · 2025-09-21 15:19:49

2401_89221867 · 2025-09-21 15:19:49 发布

一、核心更新亮点

1. 云端大模型（Cloud Models）预览

在 v0.12.0 中，Ollama 首次提供了云端推理能力，开发者可以运行体量更大的模型，而无需担心本地机器显存容量不足。云端模型通过 数据中心级别硬件 提供推理计算，同时保持了 Ollama 一贯的隐私与安全政策——不保留用户数据。

通过云端模式，你可以直接调用如 qwen3-coder:480b-cloud、gpt-oss:120b-cloud、deepseek-v3.1:671b-cloud 等超大模型，并与本地工具链无缝集成。

示例运行命令：

ollama run qwen3-coder:480b-cloud

当前可用的云端模型包括：

qwen3-coder:480b-cloud（阿里巴巴长上下文编码及智能体任务优化模型）
gpt-oss:120b-cloud（OpenAI 自研推理与智能体任务模型）
gpt-oss:20b-cloud
deepseek-v3.1:671b-cloud（混合推理模式模型，支持思维链与非思维链模式）

2. 新增模型架构支持

BERT 系列模型现已在 Ollama 引擎上运行，更适合各种文本分类、检索与 NLU 场景。
Qwen 3 系列模型也已集成至 Ollama 引擎，可在本地和云端流畅运行。

3. GPU 与性能优化

修复了 旧款 NVIDIA GPU 在新驱动环境下无法被检测的问题。
修复了多版本 CUDA 环境下的兼容性问题（Multi-CUDA version skew）。
优化了模型导入流程，避免了 ollama create 导入失败的 bug。
构建系统优化，防止并行构建导致内存或线程资源耗尽。

4. API 行为改进

针对 /api/generate 接口，如果提示中包含初始 <think> 标记，将不会进行重复解析，避免响应异常。
API 与 OpenAI 接口现已完全兼容，可直接用 OpenAI SDK 方式调用。
新增远程代理（Remote Proxy）支持，可更方便部署在跨网络环境。

二、使用方法

1. 安装或升级

下载最新 v0.12.0 版本后，即可使用云端功能。

2. 签到认证

云端推理需要在 Ollama 平台进行账号登录：

ollama signin

退出登录：

ollama signout

3. 运行云端模型

CLI 方式运行：

ollama run gpt-oss:120b-cloud

查看已拉取的模型列表：

ollama ls

输出示例：

NAME ID SIZE MODIFIED gpt-oss:120b-cloud 569662207105 - 5 seconds ago deepseek-v3.1:671-cloud d3749919e45f - 2 days ago qwen3-coder:480b-cloud 11483b8f8765 - 2 days ago

4. API 调用示例

JavaScript

import ollama from "ollama"; const response = await ollama.chat({ model: "gpt-oss:120b-cloud", messages: [{ role: "user", content: "天空为什么是蓝色的？" }], }); console.log(response.message.content);

Python

import ollama response = ollama.chat( model='gpt-oss:120b-cloud', messages=[{'role': 'user','content': '天空为什么是蓝色的？'}] ) print(response['message']['content'])

cURL

curl http://localhost:11434/api/chat -d '{ "model": "gpt-oss:120b-cloud", "messages": [{ "role": "user", "content": "天空为什么是蓝色的？" }], "stream": false }'

三、总结

Ollama v0.12.0 的发布，标志着该平台从本地推理走向了云端与本地融合的新阶段。这不仅解决了本地硬件性能不足的问题，还统一了 API 调用方式，使得开发者能够像使用本地模型一样，轻松调用超大规模云端模型。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

企业级学习自律养成微信端管理系统源码|SpringBoot+微信小程序+MyBatis架构+MySQL数据库【完整版】

2048 AI社区

震坤行AI应用荣获2025中国信息协会数据要素创新大赛二等奖

项目将采购业务解构为14大核心环节——从采购需求确定、供应商寻源，到采购合同管理、呆滞库存处理，逐一攻克行业普遍面临的物料不标准（万码奔腾）、协同效率低、价格离散、数据混乱等瓶颈，聚焦B端作业类模型研发，以“更安全、更适配、更创造价值”为目标，助力企业突破采购中的人效上限与经验局限。针对企业物料管理中“同物多码、属性缺失”的问题，AI物料管家简单三步即可实现标准化，自动识别无效数据、重复物料及关键

2048 AI社区

企业元宇宙价值评估：AI架构师的模型融合

当企业砸下数百万甚至上亿资金建设数字孪生工厂「虚拟展厅」「员工培训元宇宙」时，最头疼的问题不是技术实现——而是**「这东西到底值多少钱？」**传统财务模型只会算「硬件投入」「维护成本」，但企业元宇宙的价值藏在「用户互动的粘性」「数据资产的关联价值」「流程优化的隐性成本节省」里。这些「无形价值」像散落在黑暗中的珍珠，单靠一把手电筒（单一模型）根本捡不全。作为AI架构师，我们的任务是用模型融合搭建一套