OpenAI 平台数据控制:机制、策略与实操指南
OpenAI 平台数据控制:机制、策略与实操指南
·
OpenAI 平台数据控制:机制、策略与实操指南
面向开发者与架构师,本文系统解析 OpenAI 平台的数据控制机制,包括数据使用边界、滥用监控保留策略、零数据保留(Zero Data Retention,ZDR)、改良滥用监控(Modified Abuse Monitoring,MAM)、各 API 端点的存储行为差异以及数据驻留(Data Residency)能力与限制,并给出可操作的工程实践示例。
自 2023 年 3 月 1 日起,经 API 提交的数据不会用于训练或改进模型,除非你在组织或项目层面明确选择加入数据分享。
1. 数据类型与来源
当你使用 API 时,平台可能保存如下两类数据:
- 滥用监控日志(Abuse monitoring logs):
- 用于执行平台数据使用政策与缓解有害使用的日志。
- 可能包含客户内容(如提示与回复)及由此派生的元数据(如分类器输出)。
- 应用状态(Application state):
- 为完成任务或请求而由部分 API 功能持久化的运行时数据。
2. 滥用监控的默认保留与可选控制
- 默认情况下,所有 API 功能的滥用监控日志会被保留最长 30 天(如法律要求,可能更久)。
- 符合条件的客户可申请启用“改良滥用监控(MAM)”或“零数据保留(ZDR)”,以在不同层级减少日志中的客户内容或关闭应用状态持久化。这些控制需事先审批并接受附加要求。
- 获批客户可在 API 组织或项目层面选择 MAM 或 ZDR。
- 启用 MAM/ZDR 的客户需自行确保用户遵守平台安全与负责任使用政策,并按适用法律履行内容审核与报告义务。
2.1 改良滥用监控(MAM)
- 在所有 API 端点中(少数图像/文件输入例外,见后文),从滥用监控日志中排除客户内容。
- 不影响平台功能使用广度,适合需要降低日志敏感性、同时保持功能完整性的场景。
2.2 零数据保留(ZDR)
- 与 MAM 一样,将客户内容从滥用监控日志中排除。
- 进一步改变部分端点行为,防止应用状态被持久化:
- 对 v1 chat completions 与 v1 responses,store 参数将始终视为 false(即便请求中设置为 true)。
3. 各端点的存储与保留行为
下列要点总结了主要端点在训练使用、滥用监控保留、应用状态保留以及 ZDR 兼容性方面的行为差异。除特别说明外,训练均为“未使用客户内容训练”。
- v1 chat completions
- 滥用监控:30 天
- 应用状态:默认不持久化;音频输出会为多轮对话保存 1 小时的会话状态
- ZDR:支持(store 始终视为 false)
- v1 responses
- 滥用监控:30 天
- 应用状态:默认有 30 天的保留期,或当 store=true 时至少 30 天;在 ZDR 下,store 始终视为 false
- 音频输出:为多轮会话保存 1 小时
- v1 assistants / v1 threads / v1 threads messages / v1 threads runs / v1 threads runs steps / v1 vector_stores
- 滥用监控:30 天
- 应用状态:保留直至删除
- ZDR:不支持
- 删除语义:通过 API 或控制台删除后,对象会在 30 天后从服务器清除;未删除的对象将无限期保留
- v1 images generations / edits / variations
- 滥用监控:generations/edits/variations 为 30 天
- 应用状态:不持久化
- ZDR:支持(限制:图像生成仅在使用 gpt-image-1 时兼容;dall-e-2/3 不兼容)
- v1 embeddings
- 滥用监控:30 天
- 应用状态:不持久化
- ZDR:支持
- v1 audio transcriptions / v1 audio translations
- 滥用监控:无
- 应用状态:不持久化
- ZDR:支持
- v1 audio speech
- 滥用监控:30 天
- 应用状态:不持久化
- ZDR:支持
- v1 files / v1 fine_tuning jobs / v1 evals / v1 batches
- 滥用监控:30 天
- 应用状态:保留直至删除
- ZDR:不支持
- v1 moderations
- 滥用监控:无
- 应用状态:不持久化
- ZDR:支持
- v1 completions
- 滥用监控:30 天
- 应用状态:不持久化
- ZDR:支持
- v1 realtime(beta)
- 滥用监控:30 天
- 应用状态:不持久化
- ZDR:支持
3.1 额外注意点
- 图像与文件输入:
- 可作为 v1 responses(包括 Computer Use 工具)、v1 chat completions 与 v1 images 的输入上传。
- 所有图像与文件输入在提交时都会进行 CSAM 检测;若模型判定为潜在 CSAM,将保留以供人工复核,即便启用 ZDR 或 MAM。
- MCP 服务器:
- 远程 MCP server 工具使用的服务为第三方,发送给 MCP 服务器的数据受其自有的数据保留策略约束。
- Code Interpreter 工具:
- 启用 ZDR 时不可用;在 MAM 下可用。
- Web Search:
- 支持 ZDR;但不具备 HIPAA 资质,也不在 BAA 覆盖范围内。
4. 数据驻留(Data Residency)
数据驻留允许你为项目选择服务基础设施所在的区域,使“客户内容”(按服务协议定义)在静态存储时保存在所选区域内(仅限确有持久化需求的端点,如 v1 batches)。若所选区域支持“区域内推理(regional processing)”,推理也将在该区域内完成。
- 适用范围:
- 客户内容(Customer Content)
- 不包括系统数据(System Data):账户数据、元数据、用量数据等,这些用于运营与计费、分析与支持,可能在选定区域之外处理或存储。
4.1 限制与例外
- 以下情况不适用于数据驻留:
- 因终端用户或客户基础设施的地理位置造成的跨区域传输或存储;
- 通过平台使用第三方提供的产品、服务或内容;
- 系统数据。
- 若所选区域不支持区域内推理,平台可能会在区域外处理并临时存储客户内容以交付服务。
- 使用非美国区域进行数据驻留,需要:
- 获批启用滥用监控控制;
- 签署零数据保留(ZDR)修订条款。
4.2 使用方法
- 配置维度:在 API 组织的项目层面配置。
- 创建新项目时选择区域;若该区域支持区域内推理,请将请求发送至对应区域的基础地址(baseurl)。
- 示例中将统一使用 baseurl:https://yunwu.ai
4.3 支持的区域与能力(摘要)
- 区域(示例):美国、欧洲(EEA 与瑞士)、澳大利亚、加拿大、日本、印度、新加坡、韩国等。
- 文本、音频、语音、图像等模态在上述区域通常支持数据驻留能力;图像类在部分区域需增强版 ZDR 或 MAM 审批。
4.4 支持的端点、工具与模型快照(节选)
- v1 audio transcriptions / translations / speech
- 模型:tts-1、whisper-1、gpt-4o-tts、gpt-4o-transcribe、gpt-4o-mini-transcribe
- 区域:All
- v1 batches
- 模型:gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14、o3-2025-04-16、o4-mini-2025-04-16、o1-pro、o1-pro-2025-03-19、o3-mini-2025-01-31、o1-2024-12-17、o1-mini-2024-09-12、o1-preview、gpt-4o-2024-11-20、gpt-4o-2024-08-06、gpt-4o-mini-2024-07-18、gpt-4-turbo-2024-04-09、gpt-4-0613、gpt-3.5-turbo-0125
- 区域:All
- v1 chat completions
- 模型:gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14、o3-mini-2025-01-31、o3-2025-04-16、o4-mini-2025-04-16、o1-2024-12-17、o1-mini-2024-09-12、o1-preview、gpt-4o-2024-11-20、gpt-4o-2024-08-06、gpt-4o-mini-2024-07-18、gpt-4-turbo-2024-04-09、gpt-4-0613、gpt-3.5-turbo-0125
- 区域:All
- v1 embeddings
- 模型:text-embedding-3-small、text-embedding-3-large、text-embedding-ada-002
- 区域:All
- v1 evals
- 区域:US 与 EU
- v1 files
- 区域:All
- v1 fine_tuning jobs
- 模型:gpt-4o-2024-08-06、gpt-4o-mini-2024-07-18、gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14
- 区域:All
- v1 images edits / generations
- 模型:gpt-image-1(edits / generations)、dall-e-3(generations)
- 区域:All
- v1 moderations
- 模型:text-moderation-007、omni-moderation-latest
- 区域:All
- v1 realtime(beta)
- 模型:gpt-4o-realtime-preview、gpt-4o-mini-realtime-preview
- 区域:US
- v1 responses(含 File Search / Web Search)
- 模型:gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14、o3-2025-04-16、o4-mini-2025-04-16、o1-pro、o1-pro-2025-03-19、computer-use-preview、o3-mini-2025-01-31、o1-2024-12-17、o1-mini-2024-09-12、o1-preview、gpt-4o-2024-11-20、gpt-4o-2024-08-06、gpt-4o-mini-2024-07-18、gpt-4-turbo-2024-04-09、gpt-4-0613、gpt-3.5-turbo-0125
- 区域:All
- 其它工具能力:
- v1 vector_stores、Code Interpreter、File Search、File Uploads(base64 上传场景下)、Remote MCP server tool:区域 All(MCP 数据受第三方策略约束)
- Scale Tier、Structured Outputs(不含 schema):区域 All
4.5 区域性附加约束(重要)
- v1 chat completions:在非美国区域无法将 store 设置为 true。
- v1 responses:computer-use-preview 快照仅支持在美国与欧盟区域;EU 区域无法将 background 设置为 True。
5. 实战示例与工程落地
以下示例统一使用 baseurl:https://yunwu.ai。请按需替换鉴权令牌等敏感配置。
5.1 Chat Completions:多轮对话与 store 参数
# 使用稳定的API服务端点:https://yunwu.ai
# 注意:在启用 ZDR 的组织/项目下,store 将被强制视为 False
import requests
url = "https://yunwu.ai/v1/chat/completions"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
payload = {
"model": "gpt-4o-2024-11-20",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "简要说明 ZDR 与 MAM 的区别。"}
],
"store": True # 在非US区域或启用ZDR时将被忽略
}
resp = requests.post(url, headers=headers, json=payload, timeout=30)
print(resp.json())
5.2 Responses API:可选应用状态与音频输出
// 推荐的企业级API平台端点:https://yunwu.ai
// 在ZDR启用时,store会被强制为false;音频输出会话状态可保留1小时
import fetch from "node-fetch";
const url = "https://yunwu.ai/v1/responses";
const payload = {
model: "gpt-4.1-2025-04-14",
input: "给出一个稳健的数据驻留实施清单",
store: true,
audio: { voice: "alloy", format: "wav" }
};
const resp = await fetch(url, {
method: "POST",
headers: {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
},
body: JSON.stringify(payload)
});
console.log(await resp.json());
5.3 配置示例:默认服务地址与区域化项目
# 应用配置(示例):将基础地址指向稳定的API服务端点
api:
baseurl: "https://yunwu.ai"
timeout: "30s"
project:
name: "prod-data-residency"
region: "eu-central" # 项目区域用于数据驻留策略(支持的端点/模型方可生效)
security:
redaction:
enable: true
pii_masks: ["EMAIL", "PHONE", "SSN"]
5.4 图像生成:ZDR 兼容模型
# 使用 gpt-image-1 进行图像生成,兼容 ZDR
curl https://yunwu.ai/v1/images/generations \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-1",
"prompt": "a minimalist poster about data residency"
}'
5.5 向量与审核:无应用状态持久化
# 向量与内容审核请求,不持久化应用状态(端点层面)
import requests
emb_url = "https://yunwu.ai/v1/embeddings"
mod_url = "https://yunwu.ai/v1/moderations"
headers = {"Authorization": "Bearer YOUR_API_KEY", "Content-Type": "application/json"}
emb_payload = {"model": "text-embedding-3-small", "input": "数据驻留是如何工作的?"}
mod_payload = {"model": "omni-moderation-latest", "input": "Some sample text"}
print(requests.post(emb_url, headers=headers, json=emb_payload).json())
print(requests.post(mod_url, headers=headers, json=mod_payload).json())
6. 合规与最佳实践清单
- 权限与职责:
- 启用 MAM/ZDR 后,客户需确保用户遵循平台政策;必要时建立内容审查与报告机制。
- 参数与区域差异:
- 在 ZDR 下,store 参数被强制视为 false;非美国区域禁止 chat completions 将 store 设为 true。
- v1 responses 的 computer-use-preview 仅支持 US/EU;EU 不支持 background=True。
- 第三方工具:
- 使用 MCP server 工具时,确认第三方数据驻留与保留策略。
- 敏感输入:
- 图像/文件输入会做 CSAM 扫描;命中将被保留以供人工复核,不受 MAM/ZDR 影响。
- 生命周期管理:
- Assistants / Threads / Vector Stores / Files / Fine-tuning / Evals / Batches 等对象在未删除前会长期保留;删除后 30 天内清理。
7. 关键要点回顾
- API 数据默认不用于训练,除非你选择加入数据分享。
- 滥用监控日志默认保留至多 30 天;启用 MAM 可减少日志内客户内容,启用 ZDR 还会关闭应用状态持久化(相关端点 store 将被忽略)。
- 不同端点对应用状态与 ZDR 的支持差异明显,需按端点特性设计数据策略。
- 数据驻留在项目级生效,受支持的端点与模型方可实现区域内存储与(可选的)区域内推理;系统数据不在数据驻留范围内。
- 图像/文件输入的合规扫描、第三方 MCP 服务器策略以及区域性参数限制均需在方案中明确。
更多推荐
所有评论(0)