分步讲解 OpenAI gpt-oss 本地部署：从文件下载到交互使用全流程

355M 模型需 4GB+ RAM，124M 模型可运行于 2GB RAM 设备（如树莓派）。完整流程耗时约 20 分钟。（以开源模型 GPT-2 为例，适用于 Linux/macOS 系统）

2501_93893000

508人浏览 · 2025-10-29 19:49:23

2501_93893000 · 2025-10-29 19:49:23 发布

分步讲解 OpenAI GPT-OSS 本地部署全流程

（以开源模型 GPT-2 为例，适用于 Linux/macOS 系统）

步骤 1：环境准备

安装 Python 3.7+

sudo apt update && sudo apt install python3-pip  # Ubuntu/Debian
brew install python@3.9                         # macOS

安装依赖库

pip3 install tensorflow==2.4.1 transformers numpy flask

步骤 2：下载模型文件

克隆官方仓库

git clone https://github.com/openai/gpt-2.git
cd gpt-2

下载预训练模型
- 选择模型大小（示例：355M 模型）：
```
python3 download_model.py 355M
```
- 模型将保存在 models/355M 目录

步骤 3：配置推理环境

创建交互脚本
新建 app.py 文件，内容如下：

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

model_name = "models/355M"  # 模型路径
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

def generate_text(prompt, max_length=100):
    inputs = tokenizer.encode(prompt, return_tensors="pt")
    outputs = model.generate(inputs, max_length=max_length, num_return_sequences=1)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

if __name__ == "__main__":
    while True:
        prompt = input("输入提示 >>> ")
        print("生成结果:", generate_text(prompt))

步骤 4：启动本地交互

运行脚本
```
python3 app.py
```

交互示例

输入提示 >>> 人工智能的未来
生成结果 >>> 人工智能的未来将深刻改变人类社会。从医疗诊断到自动驾驶，机器学习技术正在...

步骤 5：高级功能扩展

API 服务化
使用 Flask 创建 Web API：

from flask import Flask, request, jsonify
app = Flask(__name__)

@app.route('/generate', methods=['POST'])
def api_generate():
    prompt = request.json['prompt']
    result = generate_text(prompt)
    return jsonify({"response": result})

if __name__ == "__main__":
    app.run(host='0.0.0.0', port=5000)

通过 curl 调用：

curl -X POST http://localhost:5000/generate -H "Content-Type: application/json" -d '{"prompt":"气候变化"}'

常见问题解决

显存不足：
在 generate() 中添加参数 device_map="auto" 启用 CPU/多 GPU 分担负载

依赖冲突：
使用虚拟环境：

python3 -m venv gpt-env
source gpt-env/bin/activate
pip install -r requirements.txt

硬件建议：355M 模型需 4GB+ RAM，124M 模型可运行于 2GB RAM 设备（如树莓派）。完整流程耗时约 20 分钟。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

大模型开发新姿势：Agent转换工具完全指南，代码示例超详细，小白也能秒会！

2048 AI社区

把模型跑通，也把问题跑出来——开源GPU创新生态赛S1赛道二实践总结

2048 AI社区

非科班普通人如何转大模型相关岗位拿下大厂 offer

大模型赛道变化很快，今天的新技术可能明天就会被迭代。所以，入行之后一定要保持学习的热情，多关注前沿论文和技术动态。很多面试官会问你最近有没有关注什么新模型、新技术，考察你对行业的敏感度。读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用如果你是零基础小白，想快速入门大模型是可以考虑的。一方面是学习时间相对较短，学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。作为一