Azure AI 全景图:Microsoft Foundry 统一平台
摘要:Microsoft Foundry作为企业级AI平台,整合模型、智能体、知识与治理四大核心能力,推动AI从单点工具向生产级系统跃迁。平台提供11,000+模型选型、智能体服务编排、知识推理引擎及统一治理中心,支持企业构建自动化AI工作流。通过统一智能层架构,打破数据孤岛,实现协作、分析与应用数据的深度融合,为企业AI规模化落地提供端到端解决方案。
摘要
AI 正在经历属于自己的"云时刻"。企业不再满足于孤立的聊天机器人或零散的概念验证,而是需要一个能够将模型、智能体、知识、治理与安全整合为一体的生产级平台。Microsoft Foundry,正是为这个时刻而生。
本文是「Azure AI 全栈实践」系列的开篇,将带你全面拆解 Microsoft Foundry 的架构设计、核心能力与实战路径,帮助你在 2026 年的 AI 浪潮中建立清晰的技术认知与落地策略。
目录
- 一、引言:AI 的"云时刻"
- 二、平台全景:Microsoft Foundry 四大支柱
- 三、统一智能层:IQ 三位一体架构
- 四、资源架构深度解析
- 五、模型目录全解:11,000+ 模型选型指南
- 六、动手实战:5 步快速上手
- 七、MCP Server 云端接入
- 八、生产环境最佳实践
- 九、演进路线图
- 十、总结与下一篇预告
- 参考资料
一、引言:AI 的"云时刻"
2006 年,亚马逊发布 S3 和 EC2,将"服务器"这一硬件概念彻底抽象为按需弹性的云资源,开启了云计算时代。近 20 年后,AI 正在经历同样的范式跃迁。
曾经,"用 AI"意味着数据科学家在本地 Jupyter Notebook 里跑实验;如今,它意味着在生产环境中运行自主的智能体舰队,自动化处理企业的核心业务流程。这一跃迁对基础设施的要求远超过去——你需要的不仅仅是一个 API 调用端点,而是一个完整的AI 工程平台:模型选择、智能体编排、知识检索、安全治理、成本可观测,缺一不可。
Microsoft Foundry 正是微软对这一需求的系统性回答。
平台演进史
2023 年底 2024 年初 2024 年底 2025 年 11 月
│ │ │ │
Azure ML + Azure AI Studio Azure AI Foundry Microsoft Foundry
OpenAI ──────────────────────────────────────────────────────►
Service 模型测试场 应用构建平台 企业 AI 工厂
从 Azure AI Studio 到 Microsoft Foundry,这条演进路线折射出微软对企业 AI 需求理解的持续深化:从"我能调用模型"到"我能在企业环境中安全、可靠、可观测地大规模运行 AI"。
截至 2025 年底,Microsoft Foundry 已服务全球 60,000+ 家企业,每日处理超过 30 亿次搜索查询,模型目录收录了来自 OpenAI、Anthropic、Meta、Mistral、xAI 等主流厂商的 11,000+ 个模型。
二、平台全景:Microsoft Foundry 四大支柱
Microsoft Foundry 的架构可以概括为四大支柱,它们协同运作,构成一座完整的"企业 AI 工厂"。
╔══════════════════════════════════════════════════════════════════╗
║ Microsoft Foundry ║
║ 企业 AI 工厂 (AI Factory) ║
╠══════════════════╦═══════════════╦══════════════╦═══════════════╣
║ ║ ║ ║ ║
║ 📦 Foundry ║ 🤖 Foundry ║ 🧠 Foundry ║ 🛡️ Foundry ║
║ Models ║ Agent ║ IQ ║ Control ║
║ ║ Service ║ ║ Plane ║
║ 模型目录 ║ 智能体服务 ║ 企业知识层 ║ 治理控制平面 ║
║ 11,000+ 模型 ║ 单/多 Agent ║ RAG 引擎 ║ 安全与可观测 ║
║ ║ ║ ║ ║
╚══════════════════╩═══════════════╩══════════════╩═══════════════╝
│
┌──────────────┼──────────────┐
▼ ▼ ▼
Azure AI Azure AI Azure AI
Search Storage Monitor
(知识检索) (数据存储) (监控遥测)
2.1 Foundry Models:最广泛的模型选择
Foundry Models 是平台的"原料仓库",提供超过 11,000 个来自多家顶级 AI 实验室的模型。关键差异化能力在于模型路由(Model Router)——这项 GA 功能可根据每个 Prompt 的复杂度、延迟要求和成本预算,自动动态选择最优模型,而无需开发者手动维护路由逻辑。
核心供应商矩阵:
| 供应商 | 代表模型(2025 最新) | 擅长场景 |
|---|---|---|
| OpenAI | GPT-5.2、GPT-5.1 Codex Max | 复杂推理、多步任务、代码生成 |
| Anthropic | Claude Sonnet 4.5、Opus 4.1、Haiku 4.5 | 长文档分析、安全合规、创意写作 |
| Meta | Llama 3.3 70B、Llama 3.1 405B | 开源微调、边缘部署 |
| Mistral AI | Mistral Large 3(Apache 2.0) | 多语言理解、指令跟随 |
| DeepSeek | V3.2、V3.2 Speciale | 推理任务、科学计算 |
| xAI | Grok 系列 | 实时推理、创新探索 |
| Cohere | Command R+、Rerank 4 | 企业 RAG、文档检索重排 |
| Microsoft | Phi-4、RosettaFold 3 | 小型高效推理、生物科学 |
| Black Forest Labs | FLUX.2 [pro] | 专业图像生成 |
💡 Foundry 专属优势:Azure 是目前全球唯一同时提供 OpenAI 和 Anthropic 模型的云平台,为企业提供了最广泛的前沿模型选择权。
2.2 Foundry Agent Service:从响应到行动
Foundry Agent Service 是平台的"生产线",负责将模型能力转化为真正的业务自动化。它支持三种架构模式:
- 单智能体 + 工具链:一个 Agent 配置多种工具(搜索、代码执行、外部 API),完成端到端任务
- A2A 工具调用:Agent A 调用 Agent B 作为工具,A 保持对会话线程的控制权
- 多智能体工作流:多个专业 Agent 协作执行多步骤业务流程,支持长时运行与状态恢复
核心特性包括:长期记忆存储(Memory,Preview)、Hosted Agents(全托管运行环境)、与 Microsoft 365 及 Agent 365 的原生集成,以及 Computer Use 能力(让 Agent 像人类一样操作 GUI 界面)。
2.3 Foundry IQ:企业知识推理引擎
Foundry IQ 将传统 RAG(检索增强生成)从"被动搜索"升级为"主动推理"。其技术本质是一个建立在 Azure AI Search 之上的托管知识系统,能够:
- 迭代检索:若初次检索结果不完整,自动识别缺口并细化搜索策略
- 跨源整合:连接 SharePoint、Fabric OneLake、公共互联网等多种数据源
- 权限感知:通过 Microsoft Purview 自动遵守用户访问权限与数据分类策略
- 零 pipeline 接入:无需手写 RAG 管道,通过统一的 Grounding API 直接接入
2.4 Foundry Control Plane:统一治理中心
Control Plane 是平台的"仪表盘",将身份、策略、可观测性和安全信号集中在同一界面,让 AI 系统的管理与传统云基础设施一样规范化。核心能力:
- 基于 OTel 的分布式追踪(每次 Agent 调用、工具使用、模型推理全链路可见)
- 内置评测(评估准确性、安全性、质量,支持持续红队测试)
- Entra Agent ID:为每个 AI Agent 颁发独立的企业身份,实现精细化权限控制
- Defender for Cloud + GitHub Advanced Security 深度集成(Preview)
三、统一智能层:IQ 三位一体架构
在 Microsoft Ignite 2025 上,微软宣布了一项影响深远的架构创新:将企业数据宇宙中长期存在的三个孤岛——协作数据、分析数据、应用数据——统一整合为一个"统一智能层(Unified Context Layer)",由三个相互协作的 IQ 系统构成。
┌─────────────────────────────────────────────────────────────────┐
│ Microsoft 统一智能层 (Unified Context Layer) │
├─────────────────┬─────────────────────┬───────────────────────── ┤
│ │ │ │
│ 💼 Work IQ │ 📊 Fabric IQ │ 🔍 Foundry IQ │
│ │ │ │
│ Microsoft 365 │ Microsoft Fabric │ Azure AI Search │
│ 协作数据大脑 │ 业务数据大脑 │ RAG 推理引擎 │
│ │ │ │
│ • 邮件/Teams │ • 业务指标/OneLake │ • 企业文档/知识库 │
│ • SharePoint │ • 语义数据模型 │ • 权限感知检索 │
│ • 会话记忆 │ • 统一度量定义 │ • 迭代式推理检索 │
│ • 用户偏好 │ • 多云数据统一 │ • 跨源 grounding │
└─────────────────┴─────────────────────┴───────────────────────────┘
│ │ │
└───────────────────┴──────────────────────┘
│
AI Agent 获得完整的
企业上下文感知能力
3.1 Work IQ:协作数据的大脑
Work IQ 是 Microsoft 365 的智能层,专注于非结构化与半结构化的日常协作数据。其核心突破在于引入了"会话记忆(Conversational Memory)"——Agent 不再将每次交互视为白板,而是能够跨会话记住用户偏好、历史指令和进行中的项目。
此外,Work IQ 终于解锁了 SharePoint 中长期沉睡的数据价值:Agent 不再仅仅关键词搜索文件库,而是能够理解文件的结构化元数据(如"合同到期日"、“产品型号”),实现以往无结构化搜索无法企及的精准检索。
3.2 Fabric IQ:业务数据的大脑
Fabric IQ 管理企业的"硬事实"——业务数据。它将 Power BI 的语义建模能力延伸至整个企业,将 OneLake 中的数据、本地数据中心和多云环境下的数据统一在同一个语义屋檐之下。
其战略价值在于建立"唯一可信数据源(Single Source of Truth)“:当你在 Fabric IQ 中定义"毛利润"或"活跃客户”,这个定义将自动传播到所有分析工具、应用和 AI Agent,从根本上解决了不同部门用不同口径讲同一份数据的"语义漂移"问题。
3.3 Foundry IQ:RAG 的下一代形态
Foundry IQ 代表了 RAG 技术的重大跃升。传统 RAG 是一次性的"检索-生成",而 Foundry IQ 实现了主动式检索推理:
传统 RAG 流程:
用户问题 → 向量搜索 → 取 Top-K 文档 → 送入 LLM → 输出答案
Foundry IQ 流程:
用户问题 → 规划检索策略 → 搜索 → 反思结果质量
↑ │
└──────── 发现缺口,细化策略 ◄──┘
│
综合多源结果 → 权限过滤 → 生成答案
3.4 三者协同:真实业务场景示例
场景:销售团队智能体分析"本季度 Q3 为何目标缺口 15%"
- Fabric IQ 提供量化事实:Q3 成交金额、管道转化率、各区域明细
- Work IQ 提供定性上下文:客户邮件中反映的延迟原因、Teams 会议纪要中的风险讨论
- Foundry IQ 在尊重权限边界的前提下,跨源检索竞争对手分析报告和行业标杆数据,综合推理生成深度分析报告
三层数据在 Agent 中无缝融合,输出兼具"量化准确"与"质性丰富"的洞察——这正是过去 AI 应用中"幻觉"频发的根本解法。
四、资源架构深度解析
理解 Microsoft Foundry 的 Azure 资源模型,是进行安全部署和合规运营的前提。
4.1 资源层级结构
Azure 订阅 (Subscription)
│
└── 资源组 (Resource Group)
│
├── Microsoft Foundry 资源(顶级治理边界)
│ Provider: Microsoft.CognitiveServices/account
│ Kind: AIServices
│ │
│ ├── 网络配置(Private Endpoint / VNet)
│ ├── 模型部署(Standard / PTU)
│ ├── 加密密钥(CMK / Microsoft 托管)
│ └── 全局 RBAC 策略
│
├── Foundry Project(开发隔离边界)
│ │
│ ├── Agent 定义与版本
│ ├── 评测实验(Evaluations)
│ ├── 文件与索引
│ └── 项目级 RBAC
│
├── Azure AI Search(知识检索服务)
│ Provider: Microsoft.Search
│
└── Azure Key Vault(密钥管理,可选 BYOK)
4.2 安全职责分离(Separation of Concerns)
Foundry 强制实施管理面(Control Plane)与数据面(Data Plane)的清晰分离:
| 操作类型 | 权限面 | 典型操作 |
|---|---|---|
| 创建/删除模型部署 | 管理面(Control Plane) | az cognitiveservices account deployment create |
| 创建/删除 Project | 管理面 | 通过 Azure Portal 或 ARM API |
| 构建 Agent | 数据面(Data Plane) | azure-ai-projects SDK |
| 运行评测 | 数据面 | azure-ai-evaluation SDK |
| 上传训练文件 | 数据面 | azure-ai-projects SDK |
4.3 RBAC 权限分配最佳实践
| 角色 | 作用域 | 适用主体 | 说明 |
|---|---|---|---|
| Azure AI User | Foundry 资源级 | 开发者用户 + 项目托管身份 | 最小权限起点,覆盖大多数开发场景 |
| Azure AI Developer | Project 级 | 高级开发者 | 可管理 Agent 版本和评测 |
| Azure AI Administrator | Foundry 资源级 | 平台管理员 | 可配置网络、密钥、部署 |
| Cognitive Services OpenAI Contributor | Foundry 资源级 | CI/CD 服务账号 | 用于自动化部署流水线 |
⚠️ 最小权限原则:对每个开发者用户,在 Foundry 资源级分配
Azure AI User;对 Project 的托管身份,在 Foundry 资源级也分配Azure AI User,确保 Agent 能安全访问模型而不超权。
4.4 数据存储策略
Foundry 提供灵活的存储选项,适应不同合规要求:
存储方案对比:
方案 A(默认) 方案 B(BYOS) 方案 C(CMK 加密)
────────────── ────────────────── ──────────────────
Microsoft 托管 客户自带 Storage 客户自带 Key Vault
多租户逻辑隔离 单租户数据隔离 AES-256 CMK 加密
│ │ │
快速上手 数据主权要求场景 金融/医疗高合规场景
开发测试首选 生产推荐配置 强加密合规必选
CMK 加密前置条件检查清单:
- Key Vault 与 Foundry 资源部署在同一 Azure 区域
- Key Vault 已启用软删除(Soft Delete)和清除保护(Purge Protection)
- Foundry 托管身份已被授予 Key Vault Crypto User 角色
4.5 网络隔离架构(生产推荐)
互联网
│
▼
Azure Front Door / API Gateway
│
▼ (Private Endpoint)
╔════════════════════════════════╗
║ 客户 VNet ║
║ ┌─────────────────────────┐ ║
║ │ Foundry Private Link │ ║
║ │ (mcp.ai.azure.com) │ ║
║ └────────────┬────────────┘ ║
║ │ ║
║ ┌────────────▼────────────┐ ║
║ │ Agent Container │ ║
║ │ Injection Subnet │ ║
║ └────────────┬────────────┘ ║
╚═══════════════╪════════════════╝
│ (内网通信)
企业内部系统
(SAP / Salesforce / 数据库)
五、模型目录全解:11,000+ 模型选型指南
5.1 部署类型三选一
| 部署类型 | 适用场景 | 计费方式 | 延迟特性 | 推荐场景 |
|---|---|---|---|---|
| Standard(标准部署) | 开发、测试、间歇性工作负载 | 按 Token 计费 | 可能有排队延迟 | 快速原型、内部工具 |
| Serverless API | 按需使用,无需管理基础设施 | 按 Token 计费(PAYGO) | 低延迟 | 生产环境中低至中等并发 |
| PTU(预置吞吐量) | 稳定高并发、SLA 严格 | 按小时预置容量计费 | 确定性延迟,无排队 | 核心生产业务、用户直面应用 |
💡 选型建议:开发阶段用 Standard,验证业务价值后迁移至 PTU;对于 Agent 密集型工作负载(多轮调用),PTU 的 TCO(总拥有成本)通常优于按量计费。
5.2 2025 旗舰模型速查
模型选型决策树:
你的任务是什么?
│
├─► 复杂多步推理 / 长文档分析
│ └─► GPT-5.2(gpt-5.2 或 gpt-5.2-chat-latest)
│
├─► 代码生成 / CI/CD 集成 / 自主编程 Agent
│ └─► GPT-5.1 Codex Max(400K context,SWE-Bench 77.9%)
│
├─► 成本敏感型 / 高并发小任务
│ └─► GPT-4o-mini / Mistral Large 3($0.50/$1.50 per M tokens)
│
├─► 开源可微调 / 数据主权要求
│ └─► Llama 3.3 70B / DeepSeek V3.2(128K context)
│
├─► 企业 RAG 重排序
│ └─► Cohere Rerank 4(Fast 或 Pro,100+ 语言)
│
├─► 图像生成
│ └─► GPTimage1.5(4× 提速,成本降 20%)/ FLUX.2 [pro]
│
└─► 实时语音(ASR / TTS)
└─► gpt-4o-mini-transcribe / gpt-4o-mini-tts(2025-12-15 GA)
5.3 模型路由(Model Router)— GA 新特性
Model Router 于 2025 年 11 月正式 GA,让平台自动完成"用对的模型做对的事":
# 无需指定具体模型,让 Foundry 自动路由
response = openai_client.chat.completions.create(
model="model-router", # 使用路由策略
messages=[{"role": "user", "content": prompt}],
extra_body={
"routing_policy": "cost_optimized" # 或 "performance" / "balanced"
}
)
# 返回头部包含实际使用的模型信息
print(response.model) # e.g., "gpt-4o-mini"
六、动手实战:5 步快速上手
前置准备
必要条件:
- Azure 订阅(免费试用或付费)
- Python 3.9+
- Azure CLI 已安装并登录(
az login)
在 Azure Portal 中创建 Foundry 资源:
# 方式一:Azure CLI 创建
az cognitiveservices account create \
--name "my-foundry-resource" \
--resource-group "rg-ai-prod" \
--kind "AIServices" \
--sku "S0" \
--location "eastus2" \
--yes
# 创建 Project(子资源)
az cognitiveservices account project create \
--name "my-first-project" \
--resource-group "rg-ai-prod" \
--account-name "my-foundry-resource"
Step 1:安装 SDK 与配置环境变量
# 安装最新版 azure-ai-projects SDK(v2 beta 统一包)
pip install azure-ai-projects==2.0.0b3 azure-identity openai
# 可选:安装评测工具
pip install azure-ai-evaluation==1.14.0
创建项目根目录下的 .env 配置文件:
# .env — 请勿提交至版本控制系统
# ─────────────────────────────────────────────────────────────────
# Microsoft Foundry 项目端点
# 格式:https://<hub-name>.services.ai.azure.com/api/projects/<project-name>
AZURE_AI_PROJECT_ENDPOINT=https://my-foundry-resource.services.ai.azure.com/api/projects/my-first-project
# 模型部署名称(在 Foundry Portal 中创建部署后获得)
AZURE_AI_MODEL_DEPLOYMENT=gpt-5.2
# (可选)Azure OpenAI 兼容端点(如使用旧版 SDK)
AZURE_OPENAI_ENDPOINT=https://my-foundry-resource.openai.azure.com/
AZURE_OPENAI_API_VERSION=2025-01-01-preview
# (可选)用于本地开发的 API Key(生产环境必须使用 Managed Identity)
# AZURE_AI_API_KEY=<your-key>
Step 2:初始化项目客户端
# client_init.py
import os
from dotenv import load_dotenv
from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential, AzureCliCredential
# 加载环境变量
load_dotenv()
def get_project_client() -> AIProjectClient:
"""
初始化 Microsoft Foundry 项目客户端。
认证策略(DefaultAzureCredential 自动选择):
本地开发 → Azure CLI 凭据(az login)
CI/CD → 环境变量 AZURE_CLIENT_ID / SECRET / TENANT
生产环境 → 托管身份(Managed Identity)
推荐在生产环境中使用 ManagedIdentityCredential
确保零密钥、零证书的安全访问。
"""
endpoint = os.environ["AZURE_AI_PROJECT_ENDPOINT"]
client = AIProjectClient(
endpoint=endpoint,
credential=DefaultAzureCredential(
# 排除交互式浏览器认证,避免在 CI/CD 中阻塞
exclude_interactive_browser_credential=True
)
)
print(f"✅ Foundry 客户端初始化成功")
print(f" 端点:{endpoint}")
return client
if __name__ == "__main__":
client = get_project_client()
Step 3:获取 OpenAI 客户端并执行首次对话
# chat_completion.py
import os
from client_init import get_project_client
def run_chat_demo():
client = get_project_client()
# 从 Foundry 项目获取已配置的 OpenAI 客户端
# 自动继承项目端点、认证和部署配置
openai_client = client.get_openai_client()
model = os.environ.get("AZURE_AI_MODEL_DEPLOYMENT", "gpt-5.2")
# ── 基础对话示例 ──────────────────────────────────────────────
print("\n🤖 基础对话模式\n" + "─" * 50)
response = openai_client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": (
"你是一位微软 Azure AI 技术专家。"
"请用简洁精准的语言回答问题,"
"关键术语保留英文原文。"
)
},
{
"role": "user",
"content": "请用三句话解释 Microsoft Foundry 的核心价值主张。"
}
],
temperature=0.3, # 低温度:保证答案稳定可重复
max_tokens=512,
seed=42 # 可重复性:相同输入输出一致
)
answer = response.choices[0].message.content
print(f"模型回答:\n{answer}")
print(f"\n📊 Token 用量:prompt={response.usage.prompt_tokens},"
f"completion={response.usage.completion_tokens},"
f"total={response.usage.total_tokens}")
return answer
if __name__ == "__main__":
run_chat_demo()
Step 4:流式输出(Streaming)
对于用户直面的应用,流式输出能将首字节延迟从 2-5 秒降至 < 500ms,显著提升用户体验:
# streaming_demo.py
import os
from client_init import get_project_client
def run_streaming_demo(user_question: str):
"""
流式输出示例。
适用场景:聊天界面、实时内容生成、长文本输出。
关键优化:
- 首字节延迟(TTFT)从 ~3s 降至 < 500ms
- 用户感知质量显著提升
"""
client = get_project_client()
openai_client = client.get_openai_client()
model = os.environ.get("AZURE_AI_MODEL_DEPLOYMENT", "gpt-5.2")
print(f"\n🌊 流式输出 | 问题:{user_question}\n")
print("─" * 60)
full_response = []
# stream=True 启用服务端推送事件(SSE)
stream = openai_client.chat.completions.create(
model=model,
messages=[
{"role": "system", "content": "你是 Azure AI 技术顾问,回答要深入浅出。"},
{"role": "user", "content": user_question}
],
stream=True,
temperature=0.5,
max_tokens=1024
)
for chunk in stream:
delta = chunk.choices[0].delta if chunk.choices else None
if delta and delta.content:
print(delta.content, end="", flush=True) # 实时打印,无缓冲
full_response.append(delta.content)
print("\n" + "─" * 60)
print(f"\n✅ 输出完成,总字符数:{sum(len(c) for c in full_response)}")
return "".join(full_response)
if __name__ == "__main__":
run_streaming_demo("什么是 Foundry IQ?它与传统 RAG 有何本质区别?")
Step 5:JSON 结构化输出(企业场景常用)
# structured_output.py
import json
import os
from client_init import get_project_client
# 定义输出的 JSON Schema
ANALYSIS_SCHEMA = {
"type": "object",
"properties": {
"summary": {"type": "string", "description": "核心摘要,不超过100字"},
"key_points": {"type": "array", "items": {"type": "string"}, "description": "关键要点列表"},
"risks": {"type": "array", "items": {"type": "string"}, "description": "风险项,以⚠️开头"},
"confidence": {"type": "integer", "minimum": 0, "maximum": 100, "description": "置信度评分"},
"action_items": {"type": "array", "items": {"type": "string"}, "description": "建议行动项"}
},
"required": ["summary", "key_points", "risks", "confidence"]
}
def analyze_document(document_text: str) -> dict:
"""
使用 GPT-5.2 对企业文档进行结构化分析。
输出严格遵循 JSON Schema,方便下游系统处理。
"""
client = get_project_client()
openai_client = client.get_openai_client()
model = os.environ.get("AZURE_AI_MODEL_DEPLOYMENT", "gpt-5.2")
response = openai_client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": (
"你是企业文档分析专家。"
"请严格按照指定 JSON 格式输出分析结果,"
"不要添加任何 JSON 以外的内容。"
)
},
{
"role": "user",
"content": f"请分析以下文档:\n\n{document_text}"
}
],
response_format={"type": "json_object"}, # 强制 JSON 输出
temperature=0.1, # 低温度保证格式稳定
max_tokens=2048
)
result = json.loads(response.choices[0].message.content)
return result
if __name__ == "__main__":
sample_doc = """
本季度 Azure AI 服务收入同比增长 157%,
主要驱动力来自 Copilot 商业版和 Azure OpenAI Service。
风险项:GPU 供应链紧张可能影响 Q4 产能扩张计划。
建议:加速 PTU 预售,锁定 2026 年容量。
"""
result = analyze_document(sample_doc)
print(json.dumps(result, ensure_ascii=False, indent=2))
输出示例:
{
"summary": "Azure AI 服务收入高速增长,但 GPU 供应链存在风险",
"key_points": [
"Azure AI 服务收入同比增长 157%",
"Copilot 商业版是主要增长驱动力",
"Azure OpenAI Service 贡献显著"
],
"risks": [
"⚠️ GPU 供应链紧张可能影响 Q4 产能扩张计划"
],
"confidence": 88,
"action_items": [
"加速 PTU 预售以锁定 2026 年容量",
"密切监控 GPU 供应商交货周期"
]
}
七、MCP Server 云端接入
Model Context Protocol(MCP)是 AI 工具集成的新标准,允许 LLM 通过标准化接口调用外部工具和服务。Microsoft Foundry MCP Server 于 2025 年 12 月 3 日上线,提供云托管、零本地配置的 MCP 端点。
mcp.ai.azure.com ← Foundry MCP Server
│
│ Entra ID OAuth2 认证(无密码、无证书)
│ RBAC 权限自动继承
│ 完整 Azure 审计日志
▼
┌─────────────────────────────────────────────┐
│ 可调用工具(Tools) │
├─────────────────────────────────────────────┤
│ 📦 模型操作 浏览目录、比较基准、管理配额 │
│ 🤖 Agent 管理 创建、更新、版本管理 │
│ 📊 评测流水线 数据集创建、评测运行、对比分析 │
│ 🔍 知识搜索 Foundry IQ Grounding API │
└─────────────────────────────────────────────┘
7.1 VS Code 一键接入
方式一:扩展市场一键安装(推荐)
在 VS Code 中搜索并安装 “Microsoft Foundry” 扩展,然后在命令面板执行 Foundry: Connect to MCP Server,即可自动生成以下配置。
方式二:手动配置 .vscode/mcp.json
// .vscode/mcp.json
// 将此文件加入版本控制,团队成员共享配置
{
"servers": {
"foundry-mcp": {
"type": "http",
"url": "https://mcp.ai.azure.com",
"auth": {
"type": "entra",
"scope": "https://mcp.ai.azure.com/.default"
}
}
}
}
配置完成后,在 VS Code GitHub Copilot Chat 中切换到 Agent 模式(@workspace),即可通过自然语言调用 Foundry 工具:
@workspace 帮我在 Foundry 中查询 gpt-5.2 和 claude-opus-4.1 在代码生成任务上的基准评分对比
@workspace 在当前项目中创建一个名为 "customer-service-agent" 的 Agent,
使用 gpt-5.2 模型,系统提示设置为 "你是专业客服助手"
7.2 Python SDK 调用 MCP 工具
# mcp_tools_demo.py
import os
from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential
def list_available_models_via_mcp():
"""通过 Foundry MCP Server 列出可用模型(需 Azure AI User 角色)"""
client = AIProjectClient(
endpoint=os.environ["AZURE_AI_PROJECT_ENDPOINT"],
credential=DefaultAzureCredential()
)
# 通过 Foundry 客户端枚举模型部署
deployments = client.deployments.list()
print("📦 当前项目已部署模型:\n")
for dep in deployments:
print(f" • {dep.name:<30} | 模型: {dep.model_name:<20} | 状态: {dep.state}")
return list(deployments)
if __name__ == "__main__":
list_available_models_via_mcp()
八、生产环境最佳实践
8.1 网络安全加固
# 为 Foundry 资源启用私有端点(禁止公网直接访问)
az network private-endpoint create \
--name "pe-foundry-prod" \
--resource-group "rg-ai-prod" \
--vnet-name "vnet-prod" \
--subnet "snet-ai-services" \
--private-connection-resource-id \
"/subscriptions/<sub-id>/resourceGroups/rg-ai-prod/providers/Microsoft.CognitiveServices/accounts/my-foundry-resource" \
--group-id "account" \
--connection-name "conn-foundry-prod"
# 禁止公网访问
az cognitiveservices account update \
--name "my-foundry-resource" \
--resource-group "rg-ai-prod" \
--custom-domain "my-foundry-resource" \
--public-network-access "Disabled"
8.2 密钥与机密管理
# secrets_best_practice.py
"""
生产环境机密管理最佳实践:
❌ 禁止:硬编码 API Key 到代码或环境变量
❌ 禁止:API Key 写入 .env 文件并提交到 Git
✅ 推荐:使用 Managed Identity + Azure Key Vault
✅ 推荐:使用 DefaultAzureCredential 自动选择最优认证
"""
from azure.identity import ManagedIdentityCredential, DefaultAzureCredential
from azure.keyvault.secrets import SecretClient
def get_secret_from_keyvault(secret_name: str) -> str:
"""从 Azure Key Vault 安全读取密钥,使用托管身份认证"""
# 生产环境:使用系统分配的托管身份
credential = ManagedIdentityCredential()
kv_client = SecretClient(
vault_url=f"https://kv-ai-prod.vault.azure.net/",
credential=credential
)
secret = kv_client.get_secret(secret_name)
return secret.value
8.3 监控与可观测性配置
# observability_setup.py
"""
Foundry 支持 OpenTelemetry(OTel)原生集成。
配置后,每次模型调用、Agent 步骤、工具使用均自动上报 Azure Monitor。
"""
import os
from azure.monitor.opentelemetry import configure_azure_monitor
from opentelemetry import trace
def setup_observability():
# 配置 Azure Monitor 导出器(连接字符串从 Application Insights 获取)
configure_azure_monitor(
connection_string=os.environ["APPLICATIONINSIGHTS_CONNECTION_STRING"]
)
tracer = trace.get_tracer("azure-ai-foundry-app")
# 此后所有 Foundry SDK 调用自动附加 gen_ai.* OTel 属性
# 包括:gen_ai.provider.name、gen_ai.model.name、gen_ai.usage.* 等
return tracer
# Foundry SDK v2 OTel 属性参考:
OTel_ATTRIBUTES = {
"gen_ai.provider.name": "microsoft.foundry",
"gen_ai.model.name": "gpt-5.2",
"gen_ai.usage.input_tokens": 1024,
"gen_ai.usage.output_tokens": 512,
"gen_ai.request.temperature": 0.3
}
Azure Monitor 关键告警规则(推荐配置):
| 指标 | 告警阈值 | 告警级别 | 建议动作 |
|---|---|---|---|
| 模型调用延迟 P99 | > 10 秒 | Warning | 检查网络、切换区域 |
| 4xx 错误率 | > 5% | Critical | 检查 Token 配额和认证 |
| 429 限流率 | > 1% | Warning | 增加 PTU 或启用排队 |
| Token 消耗速率 | > 预算 90% | Warning | 审查调用方,启用限流 |
| Content Safety 拦截率 | > 3% | Critical | 人工审查,更新过滤策略 |
8.4 成本优化策略
💰 四大成本控制维度:
1. 模型降级策略
┌─────────────────────────────────────────────────────┐
│ 任务复杂度评估 → 简单任务用 gpt-4o-mini │
│ (Model Router 可自动化此决策) │
└─────────────────────────────────────────────────────┘
2. 语义缓存(Semantic Cache)
┌─────────────────────────────────────────────────────┐
│ 相似问题命中缓存 → 减少重复 LLM 调用 30-60% │
│ 工具:Azure Cache for Redis + 向量相似度匹配 │
└─────────────────────────────────────────────────────┘
3. 批处理 API(Batch API)
┌─────────────────────────────────────────────────────┐
│ 非实时任务(报告生成、数据标注)→ 成本降低 50% │
│ 吞吐量更高,适合离线处理场景 │
└─────────────────────────────────────────────────────┘
4. PTU 预置容量规划
┌─────────────────────────────────────────────────────┐
│ 分析 30 天调用日志 → 预测 P95 负载 │
│ 按峰值配置 PTU → 高峰期零排队、成本可预测 │
└─────────────────────────────────────────────────────┘
8.5 生产部署检查清单
□ 架构与资源
☑ Foundry 资源和 Project 已按照最小权限原则配置 RBAC
☑ 私有端点已启用,公网访问已禁止
☑ 跨区域灾备策略已规划(主备区域)
☑ 模型部署已使用 PTU(高并发场景)
□ 安全与合规
☑ 所有 AI Agent 已注册 Entra Agent ID
☑ Azure Content Safety 已集成到调用链
☑ Microsoft Purview 数据分类标签已应用于训练/检索数据
☑ Defender for Cloud 已启用 AI 工作负载保护
☑ 推理日志保留期 ≥ 90 天(GDPR 合规基线)
□ 可观测性
☑ Application Insights + OTel 已配置
☑ 关键指标告警已设置(延迟、错误率、Token 消耗)
☑ Foundry Control Plane 仪表板已配置团队访问
□ 成本管理
☑ Azure Cost Management 预算告警已配置
☑ 已实施语义缓存(适用场景)
☑ Model Router 已启用(降低无谓高成本模型使用)
九、演进路线图
9.1 平台演进时间线
2023 Q4 Azure AI Studio 发布
└─ 模型游乐场 + 基础 Prompt Flow
│
2024 Q2 Azure AI Studio → Azure AI Foundry(更名)
└─ 增加 Hub/Project 架构,强化 MLOps 集成
│
2024 Q4 Azure AI Foundry GA
└─ Prompt Flow GA,RAG 工具链完善
│
2025 Q1 Azure AI Agent Service 公开预览
└─ 首个托管 Agent 运行时
│
2025 Q2 Microsoft Build 2025
└─ Agent Service GA,多 Agent 工作流
└─ Foundry MCP Server(Build Preview)
│
2025 Q4 Microsoft Ignite 2025 🔥
└─ Azure AI Foundry → Microsoft Foundry(品牌升级)
└─ Foundry IQ / Fabric IQ / Work IQ 统一智能层发布
└─ Anthropic Claude 4.5 系列入驻
└─ Foundry Control Plane 预览
└─ Model Router GA
│
2025 Dec GPT-5.2 GA,GPT-5.1 Codex Max GA
└─ Foundry MCP Server 云端上线(mcp.ai.azure.com)
└─ azure-ai-projects v2.0.0b3(统一 SDK)
└─ Foundry Local 登陆 Android
│
2026 Mar ← 我们现在在这里
└─ AzureML SDK v1 停止支持倒计时(2026-06-30)
9.2 重要迁移警告
🚨 立即行动:AzureML SDK v1 迁移
组件 停止支持时间 当前状态 AzureML CLI v1 扩展 2025-09-30 ❌ 已下线 AzureML SDK v1(Python) 2026-06-30 ⚠️ 停止支持倒计时 AzureML SDK v2 持续迭代中 ✅ 推荐使用 SDK v2 核心变化:
- YAML-First:作业定义改为 YAML 文件,版本可控
- 统一客户端:
MLClient替代多个独立客户端- 改进的 Pipeline:Component 化设计,可复用性大幅提升
- 迁移指南:docs.microsoft.com/azure/machine-learning/migrate-v1-to-v2
9.3 2026 年技术展望
- Foundry Local 全平台:Windows / Mac / Android,560M+ 设备的端侧推理
- Agent 365 全面 GA:Copilot Studio + Foundry 无缝互通,部署到 M365 生态
- Foundry Control Plane GA:企业级 AI 治理标配
- 多模态 Agent 成熟:Computer Use + 视觉 + 语音的统一 Agent 框架
十、总结与下一篇预告
本文核心收获
经过本文的系统梳理,相信你已经建立了对 Microsoft Foundry 的完整认知框架:
✅ 理解了 Foundry 四大支柱的定位与协作关系
(Models → Agent Service → IQ → Control Plane)
✅ 掌握了 IQ 三位一体架构的设计逻辑
(Work IQ + Fabric IQ + Foundry IQ → 统一上下文层)
✅ 熟悉了 Foundry 资源模型和安全架构
(Foundry 资源 → Project → RBAC → 网络隔离 → 存储策略)
✅ 能够快速完成 SDK 安装、客户端初始化和首次 API 调用
✅ 了解了 MCP Server 云端接入方式和 VS Code 集成
✅ 掌握了生产部署的关键最佳实践与合规检查清单
Microsoft Foundry 不是一个单一产品,而是一套经过精心设计的企业 AI 工程体系。它将过去散落在多个服务之间的能力——模型访问、Agent 运行时、RAG 引擎、MLOps 工具链、安全治理——整合进统一的开发者体验和运营框架。
对于正在规划或扩展 AI 能力的企业而言,Foundry 提供的不仅是技术工具,更是一套经过生产验证的 AI 工程方法论。
📢 下一篇预告
博客 #2:Azure OpenAI Service 深度实践 —— GPT-5.2 企业级部署、Prompt 工程与成本优化
预计内容:
- GPT-5.2 vs GPT-5.1 Codex Max 深度对比与选型
- 企业级 Prompt 工程:System Prompt 模板库、少样本学习、思维链
- 部署类型选型:Standard / Serverless / PTU 决策树
- 成本优化四板斧:模型降级、语义缓存、批处理、PTU 规划
- 多模态应用:GPTimage1.5 与 gpt-4o-mini-transcribe 集成实战
- 生产可靠性:重试策略、熔断器、降级方案
参考资料
| 资源 | 链接 |
|---|---|
| Microsoft Foundry 官方文档 | https://azure.microsoft.com/en-us/products/ai-foundry |
| Foundry 架构参考 | https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/architecture |
| Ignite 2025 Foundry 全部公告 | https://azure.microsoft.com/en-us/blog/microsoft-foundry-scale-innovation-on-a-modular-interoperable-and-secure-agent-stack/ |
| Azure Ignite 2025 全部公告汇总 | https://azure.microsoft.com/en-us/blog/azure-at-microsoft-ignite-2025-all-the-intelligent-cloud-news-explained/ |
| Foundry Dec 2025/Jan 2026 更新日志 | https://devblogs.microsoft.com/foundry/whats-new-in-microsoft-foundry-dec-2025-jan-2026/ |
| azure-ai-projects SDK(PyPI) | https://pypi.org/project/azure-ai-projects/ |
| Foundry MCP Server 入门 | https://learn.microsoft.com/en-us/azure/ai-foundry/mcp/get-started |
| Work IQ / Fabric IQ / Foundry IQ 解析 | https://infusedinnovations.com/blog/work-iq-fabric-iq-and-foundry-iq |
| AzureML SDK v2 迁移指南 | https://learn.microsoft.com/en-us/azure/machine-learning/migrate-v1-to-v2 |
| Foundry 模型目录 | https://ai.azure.com/catalog/models |
本文属于「Azure AI 全栈实践」系列,持续更新。如有疑问或技术讨论,欢迎在评论区留言。
© 2026 Azure AI 全栈实践系列 | 基于 Microsoft 官方文档与 Ignite 2025 发布内容
更多推荐


所有评论(0)