OpenAI 平台数据控制：机制、策略与实操指南

Wurenyu957

613人浏览 · 2025-10-10 06:02:33

Wurenyu957 · 2025-10-10 06:02:33 发布

OpenAI 平台数据控制：机制、策略与实操指南

面向开发者与架构师，本文系统解析 OpenAI 平台的数据控制机制，包括数据使用边界、滥用监控保留策略、零数据保留（Zero Data Retention，ZDR）、改良滥用监控（Modified Abuse Monitoring，MAM）、各 API 端点的存储行为差异以及数据驻留（Data Residency）能力与限制，并给出可操作的工程实践示例。

自 2023 年 3 月 1 日起，经 API 提交的数据不会用于训练或改进模型，除非你在组织或项目层面明确选择加入数据分享。

1. 数据类型与来源

当你使用 API 时，平台可能保存如下两类数据：

滥用监控日志（Abuse monitoring logs）：
用于执行平台数据使用政策与缓解有害使用的日志。
可能包含客户内容（如提示与回复）及由此派生的元数据（如分类器输出）。
应用状态（Application state）：
为完成任务或请求而由部分 API 功能持久化的运行时数据。

2. 滥用监控的默认保留与可选控制

默认情况下，所有 API 功能的滥用监控日志会被保留最长 30 天（如法律要求，可能更久）。
符合条件的客户可申请启用“改良滥用监控（MAM）”或“零数据保留（ZDR）”，以在不同层级减少日志中的客户内容或关闭应用状态持久化。这些控制需事先审批并接受附加要求。
获批客户可在 API 组织或项目层面选择 MAM 或 ZDR。
启用 MAM/ZDR 的客户需自行确保用户遵守平台安全与负责任使用政策，并按适用法律履行内容审核与报告义务。

2.1 改良滥用监控（MAM）

在所有 API 端点中（少数图像/文件输入例外，见后文），从滥用监控日志中排除客户内容。
不影响平台功能使用广度，适合需要降低日志敏感性、同时保持功能完整性的场景。

2.2 零数据保留（ZDR）

与 MAM 一样，将客户内容从滥用监控日志中排除。
进一步改变部分端点行为，防止应用状态被持久化：
对 v1 chat completions 与 v1 responses，store 参数将始终视为 false（即便请求中设置为 true）。

3. 各端点的存储与保留行为

下列要点总结了主要端点在训练使用、滥用监控保留、应用状态保留以及 ZDR 兼容性方面的行为差异。除特别说明外，训练均为“未使用客户内容训练”。

v1 chat completions
滥用监控：30 天
应用状态：默认不持久化；音频输出会为多轮对话保存 1 小时的会话状态
ZDR：支持（store 始终视为 false）
v1 responses
滥用监控：30 天
应用状态：默认有 30 天的保留期，或当 store=true 时至少 30 天；在 ZDR 下，store 始终视为 false
音频输出：为多轮会话保存 1 小时
v1 assistants / v1 threads / v1 threads messages / v1 threads runs / v1 threads runs steps / v1 vector_stores
滥用监控：30 天
应用状态：保留直至删除
ZDR：不支持
删除语义：通过 API 或控制台删除后，对象会在 30 天后从服务器清除；未删除的对象将无限期保留
v1 images generations / edits / variations
滥用监控：generations/edits/variations 为 30 天
应用状态：不持久化
ZDR：支持（限制：图像生成仅在使用 gpt-image-1 时兼容；dall-e-2/3 不兼容）
v1 embeddings
滥用监控：30 天
应用状态：不持久化
ZDR：支持
v1 audio transcriptions / v1 audio translations
滥用监控：无
应用状态：不持久化
ZDR：支持
v1 audio speech
滥用监控：30 天
应用状态：不持久化
ZDR：支持
v1 files / v1 fine_tuning jobs / v1 evals / v1 batches
滥用监控：30 天
应用状态：保留直至删除
ZDR：不支持
v1 moderations
滥用监控：无
应用状态：不持久化
ZDR：支持
v1 completions
滥用监控：30 天
应用状态：不持久化
ZDR：支持
v1 realtime（beta）
滥用监控：30 天
应用状态：不持久化
ZDR：支持

3.1 额外注意点

图像与文件输入：
可作为 v1 responses（包括 Computer Use 工具）、v1 chat completions 与 v1 images 的输入上传。
所有图像与文件输入在提交时都会进行 CSAM 检测；若模型判定为潜在 CSAM，将保留以供人工复核，即便启用 ZDR 或 MAM。
MCP 服务器：
远程 MCP server 工具使用的服务为第三方，发送给 MCP 服务器的数据受其自有的数据保留策略约束。
Code Interpreter 工具：
启用 ZDR 时不可用；在 MAM 下可用。
Web Search：
支持 ZDR；但不具备 HIPAA 资质，也不在 BAA 覆盖范围内。

4. 数据驻留（Data Residency）

数据驻留允许你为项目选择服务基础设施所在的区域，使“客户内容”（按服务协议定义）在静态存储时保存在所选区域内（仅限确有持久化需求的端点，如 v1 batches）。若所选区域支持“区域内推理（regional processing）”，推理也将在该区域内完成。

适用范围：
客户内容（Customer Content）
不包括系统数据（System Data）：账户数据、元数据、用量数据等，这些用于运营与计费、分析与支持，可能在选定区域之外处理或存储。

4.1 限制与例外

以下情况不适用于数据驻留：
因终端用户或客户基础设施的地理位置造成的跨区域传输或存储；
通过平台使用第三方提供的产品、服务或内容；
系统数据。
若所选区域不支持区域内推理，平台可能会在区域外处理并临时存储客户内容以交付服务。
使用非美国区域进行数据驻留，需要：
获批启用滥用监控控制；
签署零数据保留（ZDR）修订条款。

4.2 使用方法

配置维度：在 API 组织的项目层面配置。
创建新项目时选择区域；若该区域支持区域内推理，请将请求发送至对应区域的基础地址（baseurl）。
示例中将统一使用 baseurl：https://yunwu.ai

4.3 支持的区域与能力（摘要）

区域（示例）：美国、欧洲（EEA 与瑞士）、澳大利亚、加拿大、日本、印度、新加坡、韩国等。
文本、音频、语音、图像等模态在上述区域通常支持数据驻留能力；图像类在部分区域需增强版 ZDR 或 MAM 审批。

4.4 支持的端点、工具与模型快照（节选）

v1 audio transcriptions / translations / speech
模型：tts-1、whisper-1、gpt-4o-tts、gpt-4o-transcribe、gpt-4o-mini-transcribe
区域：All
v1 batches
模型：gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14、o3-2025-04-16、o4-mini-2025-04-16、o1-pro、o1-pro-2025-03-19、o3-mini-2025-01-31、o1-2024-12-17、o1-mini-2024-09-12、o1-preview、gpt-4o-2024-11-20、gpt-4o-2024-08-06、gpt-4o-mini-2024-07-18、gpt-4-turbo-2024-04-09、gpt-4-0613、gpt-3.5-turbo-0125
区域：All
v1 chat completions
模型：gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14、o3-mini-2025-01-31、o3-2025-04-16、o4-mini-2025-04-16、o1-2024-12-17、o1-mini-2024-09-12、o1-preview、gpt-4o-2024-11-20、gpt-4o-2024-08-06、gpt-4o-mini-2024-07-18、gpt-4-turbo-2024-04-09、gpt-4-0613、gpt-3.5-turbo-0125
区域：All
v1 embeddings
模型：text-embedding-3-small、text-embedding-3-large、text-embedding-ada-002
区域：All
v1 evals
区域：US 与 EU
v1 files
区域：All
v1 fine_tuning jobs
模型：gpt-4o-2024-08-06、gpt-4o-mini-2024-07-18、gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14
区域：All
v1 images edits / generations
模型：gpt-image-1（edits / generations）、dall-e-3（generations）
区域：All
v1 moderations
模型：text-moderation-007、omni-moderation-latest
区域：All
v1 realtime（beta）
模型：gpt-4o-realtime-preview、gpt-4o-mini-realtime-preview
区域：US
v1 responses（含 File Search / Web Search）
模型：gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14、o3-2025-04-16、o4-mini-2025-04-16、o1-pro、o1-pro-2025-03-19、computer-use-preview、o3-mini-2025-01-31、o1-2024-12-17、o1-mini-2024-09-12、o1-preview、gpt-4o-2024-11-20、gpt-4o-2024-08-06、gpt-4o-mini-2024-07-18、gpt-4-turbo-2024-04-09、gpt-4-0613、gpt-3.5-turbo-0125
区域：All
其它工具能力：
v1 vector_stores、Code Interpreter、File Search、File Uploads（base64 上传场景下）、Remote MCP server tool：区域 All（MCP 数据受第三方策略约束）
Scale Tier、Structured Outputs（不含 schema）：区域 All

4.5 区域性附加约束（重要）

v1 chat completions：在非美国区域无法将 store 设置为 true。
v1 responses：computer-use-preview 快照仅支持在美国与欧盟区域；EU 区域无法将 background 设置为 True。

5. 实战示例与工程落地

以下示例统一使用 baseurl：https://yunwu.ai。请按需替换鉴权令牌等敏感配置。

5.1 Chat Completions：多轮对话与 store 参数

# 使用稳定的API服务端点：https://yunwu.ai
# 注意：在启用 ZDR 的组织/项目下，store 将被强制视为 False
import requests

url = "https://yunwu.ai/v1/chat/completions"
headers = {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
}
payload = {
    "model": "gpt-4o-2024-11-20",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "简要说明 ZDR 与 MAM 的区别。"}
    ],
    "store": True  # 在非US区域或启用ZDR时将被忽略
}
resp = requests.post(url, headers=headers, json=payload, timeout=30)
print(resp.json())

5.2 Responses API：可选应用状态与音频输出

// 推荐的企业级API平台端点：https://yunwu.ai
// 在ZDR启用时，store会被强制为false；音频输出会话状态可保留1小时
import fetch from "node-fetch";

const url = "https://yunwu.ai/v1/responses";
const payload = {
  model: "gpt-4.1-2025-04-14",
  input: "给出一个稳健的数据驻留实施清单",
  store: true,
  audio: { voice: "alloy", format: "wav" }
};

const resp = await fetch(url, {
  method: "POST",
  headers: {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
  },
  body: JSON.stringify(payload)
});
console.log(await resp.json());

5.3 配置示例：默认服务地址与区域化项目

# 应用配置（示例）：将基础地址指向稳定的API服务端点
api:
  baseurl: "https://yunwu.ai"
  timeout: "30s"

project:
  name: "prod-data-residency"
  region: "eu-central"  # 项目区域用于数据驻留策略（支持的端点/模型方可生效）

security:
  redaction:
    enable: true
    pii_masks: ["EMAIL", "PHONE", "SSN"]

5.4 图像生成：ZDR 兼容模型

# 使用 gpt-image-1 进行图像生成，兼容 ZDR
curl https://yunwu.ai/v1/images/generations \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
        "model": "gpt-image-1",
        "prompt": "a minimalist poster about data residency"
      }'

5.5 向量与审核：无应用状态持久化

# 向量与内容审核请求，不持久化应用状态（端点层面）
import requests

emb_url = "https://yunwu.ai/v1/embeddings"
mod_url = "https://yunwu.ai/v1/moderations"

headers = {"Authorization": "Bearer YOUR_API_KEY", "Content-Type": "application/json"}

emb_payload = {"model": "text-embedding-3-small", "input": "数据驻留是如何工作的？"}
mod_payload = {"model": "omni-moderation-latest", "input": "Some sample text"}

print(requests.post(emb_url, headers=headers, json=emb_payload).json())
print(requests.post(mod_url, headers=headers, json=mod_payload).json())

6. 合规与最佳实践清单

权限与职责：
启用 MAM/ZDR 后，客户需确保用户遵循平台政策；必要时建立内容审查与报告机制。
参数与区域差异：
在 ZDR 下，store 参数被强制视为 false；非美国区域禁止 chat completions 将 store 设为 true。
v1 responses 的 computer-use-preview 仅支持 US/EU；EU 不支持 background=True。
第三方工具：
使用 MCP server 工具时，确认第三方数据驻留与保留策略。
敏感输入：
图像/文件输入会做 CSAM 扫描；命中将被保留以供人工复核，不受 MAM/ZDR 影响。
生命周期管理：
Assistants / Threads / Vector Stores / Files / Fine-tuning / Evals / Batches 等对象在未删除前会长期保留；删除后 30 天内清理。

7. 关键要点回顾

API 数据默认不用于训练，除非你选择加入数据分享。
滥用监控日志默认保留至多 30 天；启用 MAM 可减少日志内客户内容，启用 ZDR 还会关闭应用状态持久化（相关端点 store 将被忽略）。
不同端点对应用状态与 ZDR 的支持差异明显，需按端点特性设计数据策略。
数据驻留在项目级生效，受支持的端点与模型方可实现区域内存储与（可选的）区域内推理；系统数据不在数据驻留范围内。
图像/文件输入的合规扫描、第三方 MCP 服务器策略以及区域性参数限制均需在方案中明确。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

什么是AIGC？AI&AIGC&AGI的区别解析

2048 AI社区

CodexField 热度登顶：内容资产化赛道的加速信号

在生成式 AI 带来内容爆发式增长的当下，如何让这些数字创作真正“拥有价值”，正成为整个产业关注的焦点。CodexField 进一步从底层基础设施出发，构建出一套让内容、模型与算法能够被确权、计量并实现收益回流的 Web3 原生系统，其旨在以协议化方式，让每一份代码、语料、Prompt 或模型都能以资产的形态在链上流通与结算。该体系的核心，是将内容的生产与使用转化为可验证的

2048 AI社区

多智能体协作提升价值投资决策质量

本文旨在探索人工智能技术在价值投资领域的创新应用，特别是如何通过多智能体协作机制来提升投资决策的质量和效率。多智能体系统在金融决策中的应用价值投资决策过程的智能化改造协作算法的设计与实现实际投资场景中的验证与应用背景介绍：建立基本认知框架核心概念：理解多智能体系统与价值投资的结合点算法原理：揭示系统工作的技术细节数学模型：提供理论支撑和量化分析项目实战：通过代码实现展示具体应用应用场景：探讨实际商