摘要

AI 正在经历属于自己的"云时刻"。企业不再满足于孤立的聊天机器人或零散的概念验证,而是需要一个能够将模型、智能体、知识、治理与安全整合为一体的生产级平台。Microsoft Foundry,正是为这个时刻而生。

本文是「Azure AI 全栈实践」系列的开篇,将带你全面拆解 Microsoft Foundry 的架构设计、核心能力与实战路径,帮助你在 2026 年的 AI 浪潮中建立清晰的技术认知与落地策略。


目录


一、引言:AI 的"云时刻"

2006 年,亚马逊发布 S3 和 EC2,将"服务器"这一硬件概念彻底抽象为按需弹性的云资源,开启了云计算时代。近 20 年后,AI 正在经历同样的范式跃迁。

曾经,"用 AI"意味着数据科学家在本地 Jupyter Notebook 里跑实验;如今,它意味着在生产环境中运行自主的智能体舰队,自动化处理企业的核心业务流程。这一跃迁对基础设施的要求远超过去——你需要的不仅仅是一个 API 调用端点,而是一个完整的AI 工程平台:模型选择、智能体编排、知识检索、安全治理、成本可观测,缺一不可。

Microsoft Foundry 正是微软对这一需求的系统性回答。

平台演进史

2023 年底        2024 年初        2024 年底        2025 年 11 月
    │                │                │                │
Azure ML +    Azure AI Studio  Azure AI Foundry  Microsoft Foundry
  OpenAI    ──────────────────────────────────────────────────────►
 Service        模型测试场         应用构建平台       企业 AI 工厂

从 Azure AI Studio 到 Microsoft Foundry,这条演进路线折射出微软对企业 AI 需求理解的持续深化:从"我能调用模型"到"我能在企业环境中安全、可靠、可观测地大规模运行 AI"

截至 2025 年底,Microsoft Foundry 已服务全球 60,000+ 家企业,每日处理超过 30 亿次搜索查询,模型目录收录了来自 OpenAI、Anthropic、Meta、Mistral、xAI 等主流厂商的 11,000+ 个模型。


二、平台全景:Microsoft Foundry 四大支柱

Microsoft Foundry 的架构可以概括为四大支柱,它们协同运作,构成一座完整的"企业 AI 工厂"。

╔══════════════════════════════════════════════════════════════════╗
║                    Microsoft Foundry                             ║
║                  企业 AI 工厂 (AI Factory)                       ║
╠══════════════════╦═══════════════╦══════════════╦═══════════════╣
║                  ║               ║              ║               ║
║  📦 Foundry      ║  🤖 Foundry   ║  🧠 Foundry  ║  🛡️ Foundry   ║
║    Models        ║    Agent      ║     IQ       ║   Control     ║
║                  ║    Service    ║              ║    Plane      ║
║  模型目录         ║  智能体服务    ║  企业知识层   ║  治理控制平面  ║
║  11,000+ 模型    ║  单/多 Agent  ║  RAG 引擎    ║  安全与可观测  ║
║                  ║               ║              ║               ║
╚══════════════════╩═══════════════╩══════════════╩═══════════════╝
                              │
               ┌──────────────┼──────────────┐
               ▼              ▼              ▼
          Azure AI        Azure AI      Azure AI
          Search          Storage       Monitor
         (知识检索)        (数据存储)     (监控遥测)

2.1 Foundry Models:最广泛的模型选择

Foundry Models 是平台的"原料仓库",提供超过 11,000 个来自多家顶级 AI 实验室的模型。关键差异化能力在于模型路由(Model Router)——这项 GA 功能可根据每个 Prompt 的复杂度、延迟要求和成本预算,自动动态选择最优模型,而无需开发者手动维护路由逻辑。

核心供应商矩阵:

供应商 代表模型(2025 最新) 擅长场景
OpenAI GPT-5.2、GPT-5.1 Codex Max 复杂推理、多步任务、代码生成
Anthropic Claude Sonnet 4.5、Opus 4.1、Haiku 4.5 长文档分析、安全合规、创意写作
Meta Llama 3.3 70B、Llama 3.1 405B 开源微调、边缘部署
Mistral AI Mistral Large 3(Apache 2.0) 多语言理解、指令跟随
DeepSeek V3.2、V3.2 Speciale 推理任务、科学计算
xAI Grok 系列 实时推理、创新探索
Cohere Command R+、Rerank 4 企业 RAG、文档检索重排
Microsoft Phi-4、RosettaFold 3 小型高效推理、生物科学
Black Forest Labs FLUX.2 [pro] 专业图像生成

💡 Foundry 专属优势:Azure 是目前全球唯一同时提供 OpenAI 和 Anthropic 模型的云平台,为企业提供了最广泛的前沿模型选择权。

2.2 Foundry Agent Service:从响应到行动

Foundry Agent Service 是平台的"生产线",负责将模型能力转化为真正的业务自动化。它支持三种架构模式:

  • 单智能体 + 工具链:一个 Agent 配置多种工具(搜索、代码执行、外部 API),完成端到端任务
  • A2A 工具调用:Agent A 调用 Agent B 作为工具,A 保持对会话线程的控制权
  • 多智能体工作流:多个专业 Agent 协作执行多步骤业务流程,支持长时运行与状态恢复

核心特性包括:长期记忆存储(Memory,Preview)、Hosted Agents(全托管运行环境)、与 Microsoft 365 及 Agent 365 的原生集成,以及 Computer Use 能力(让 Agent 像人类一样操作 GUI 界面)。

2.3 Foundry IQ:企业知识推理引擎

Foundry IQ 将传统 RAG(检索增强生成)从"被动搜索"升级为"主动推理"。其技术本质是一个建立在 Azure AI Search 之上的托管知识系统,能够:

  • 迭代检索:若初次检索结果不完整,自动识别缺口并细化搜索策略
  • 跨源整合:连接 SharePoint、Fabric OneLake、公共互联网等多种数据源
  • 权限感知:通过 Microsoft Purview 自动遵守用户访问权限与数据分类策略
  • 零 pipeline 接入:无需手写 RAG 管道,通过统一的 Grounding API 直接接入

2.4 Foundry Control Plane:统一治理中心

Control Plane 是平台的"仪表盘",将身份、策略、可观测性和安全信号集中在同一界面,让 AI 系统的管理与传统云基础设施一样规范化。核心能力:

  • 基于 OTel 的分布式追踪(每次 Agent 调用、工具使用、模型推理全链路可见)
  • 内置评测(评估准确性、安全性、质量,支持持续红队测试)
  • Entra Agent ID:为每个 AI Agent 颁发独立的企业身份,实现精细化权限控制
  • Defender for Cloud + GitHub Advanced Security 深度集成(Preview)

三、统一智能层:IQ 三位一体架构

在 Microsoft Ignite 2025 上,微软宣布了一项影响深远的架构创新:将企业数据宇宙中长期存在的三个孤岛——协作数据、分析数据、应用数据——统一整合为一个"统一智能层(Unified Context Layer)",由三个相互协作的 IQ 系统构成。

┌─────────────────────────────────────────────────────────────────┐
│                Microsoft 统一智能层 (Unified Context Layer)       │
├─────────────────┬─────────────────────┬───────────────────────── ┤
│                 │                     │                           │
│   💼 Work IQ    │    📊 Fabric IQ      │    🔍 Foundry IQ          │
│                 │                     │                           │
│  Microsoft 365  │  Microsoft Fabric   │  Azure AI Search          │
│  协作数据大脑    │  业务数据大脑        │  RAG 推理引擎             │
│                 │                     │                           │
│ • 邮件/Teams    │ • 业务指标/OneLake   │ • 企业文档/知识库          │
│ • SharePoint    │ • 语义数据模型       │ • 权限感知检索             │
│ • 会话记忆      │ • 统一度量定义       │ • 迭代式推理检索           │
│ • 用户偏好      │ • 多云数据统一       │ • 跨源 grounding           │
└─────────────────┴─────────────────────┴───────────────────────────┘
         │                   │                      │
         └───────────────────┴──────────────────────┘
                             │
                    AI Agent 获得完整的
                    企业上下文感知能力

3.1 Work IQ:协作数据的大脑

Work IQ 是 Microsoft 365 的智能层,专注于非结构化与半结构化的日常协作数据。其核心突破在于引入了"会话记忆(Conversational Memory)"——Agent 不再将每次交互视为白板,而是能够跨会话记住用户偏好、历史指令和进行中的项目。

此外,Work IQ 终于解锁了 SharePoint 中长期沉睡的数据价值:Agent 不再仅仅关键词搜索文件库,而是能够理解文件的结构化元数据(如"合同到期日"、“产品型号”),实现以往无结构化搜索无法企及的精准检索。

3.2 Fabric IQ:业务数据的大脑

Fabric IQ 管理企业的"硬事实"——业务数据。它将 Power BI 的语义建模能力延伸至整个企业,将 OneLake 中的数据、本地数据中心和多云环境下的数据统一在同一个语义屋檐之下。

其战略价值在于建立"唯一可信数据源(Single Source of Truth)“:当你在 Fabric IQ 中定义"毛利润"或"活跃客户”,这个定义将自动传播到所有分析工具、应用和 AI Agent,从根本上解决了不同部门用不同口径讲同一份数据的"语义漂移"问题。

3.3 Foundry IQ:RAG 的下一代形态

Foundry IQ 代表了 RAG 技术的重大跃升。传统 RAG 是一次性的"检索-生成",而 Foundry IQ 实现了主动式检索推理

传统 RAG 流程:
  用户问题 → 向量搜索 → 取 Top-K 文档 → 送入 LLM → 输出答案

Foundry IQ 流程:
  用户问题 → 规划检索策略 → 搜索 → 反思结果质量
                ↑                              │
                └──────── 发现缺口,细化策略 ◄──┘
                                │
                         综合多源结果 → 权限过滤 → 生成答案

3.4 三者协同:真实业务场景示例

场景:销售团队智能体分析"本季度 Q3 为何目标缺口 15%"

  1. Fabric IQ 提供量化事实:Q3 成交金额、管道转化率、各区域明细
  2. Work IQ 提供定性上下文:客户邮件中反映的延迟原因、Teams 会议纪要中的风险讨论
  3. Foundry IQ 在尊重权限边界的前提下,跨源检索竞争对手分析报告和行业标杆数据,综合推理生成深度分析报告

三层数据在 Agent 中无缝融合,输出兼具"量化准确"与"质性丰富"的洞察——这正是过去 AI 应用中"幻觉"频发的根本解法。


四、资源架构深度解析

理解 Microsoft Foundry 的 Azure 资源模型,是进行安全部署和合规运营的前提。

4.1 资源层级结构

Azure 订阅 (Subscription)
    │
    └── 资源组 (Resource Group)
            │
            ├── Microsoft Foundry 资源(顶级治理边界)
            │       Provider: Microsoft.CognitiveServices/account
            │       Kind: AIServices
            │       │
            │       ├── 网络配置(Private Endpoint / VNet)
            │       ├── 模型部署(Standard / PTU)
            │       ├── 加密密钥(CMK / Microsoft 托管)
            │       └── 全局 RBAC 策略
            │
            ├── Foundry Project(开发隔离边界)
            │       │
            │       ├── Agent 定义与版本
            │       ├── 评测实验(Evaluations)
            │       ├── 文件与索引
            │       └── 项目级 RBAC
            │
            ├── Azure AI Search(知识检索服务)
            │       Provider: Microsoft.Search
            │
            └── Azure Key Vault(密钥管理,可选 BYOK)

4.2 安全职责分离(Separation of Concerns)

Foundry 强制实施管理面(Control Plane)与数据面(Data Plane)的清晰分离:

操作类型 权限面 典型操作
创建/删除模型部署 管理面(Control Plane) az cognitiveservices account deployment create
创建/删除 Project 管理面 通过 Azure Portal 或 ARM API
构建 Agent 数据面(Data Plane) azure-ai-projects SDK
运行评测 数据面 azure-ai-evaluation SDK
上传训练文件 数据面 azure-ai-projects SDK

4.3 RBAC 权限分配最佳实践

角色 作用域 适用主体 说明
Azure AI User Foundry 资源级 开发者用户 + 项目托管身份 最小权限起点,覆盖大多数开发场景
Azure AI Developer Project 级 高级开发者 可管理 Agent 版本和评测
Azure AI Administrator Foundry 资源级 平台管理员 可配置网络、密钥、部署
Cognitive Services OpenAI Contributor Foundry 资源级 CI/CD 服务账号 用于自动化部署流水线

⚠️ 最小权限原则:对每个开发者用户,在 Foundry 资源级分配 Azure AI User;对 Project 的托管身份,在 Foundry 资源级也分配 Azure AI User,确保 Agent 能安全访问模型而不超权。

4.4 数据存储策略

Foundry 提供灵活的存储选项,适应不同合规要求:

存储方案对比:

方案 A(默认)     方案 B(BYOS)        方案 C(CMK 加密)
──────────────    ──────────────────    ──────────────────
Microsoft 托管    客户自带 Storage      客户自带 Key Vault
多租户逻辑隔离    单租户数据隔离         AES-256 CMK 加密
│                 │                     │
快速上手          数据主权要求场景        金融/医疗高合规场景
开发测试首选      生产推荐配置           强加密合规必选

CMK 加密前置条件检查清单:

  • Key Vault 与 Foundry 资源部署在同一 Azure 区域
  • Key Vault 已启用软删除(Soft Delete)清除保护(Purge Protection)
  • Foundry 托管身份已被授予 Key Vault Crypto User 角色

4.5 网络隔离架构(生产推荐)

互联网
   │
   ▼
Azure Front Door / API Gateway
   │
   ▼ (Private Endpoint)
╔════════════════════════════════╗
║        客户 VNet               ║
║  ┌─────────────────────────┐   ║
║  │   Foundry Private Link  │   ║
║  │  (mcp.ai.azure.com)     │   ║
║  └────────────┬────────────┘   ║
║               │                ║
║  ┌────────────▼────────────┐   ║
║  │   Agent Container       │   ║
║  │   Injection Subnet      │   ║
║  └────────────┬────────────┘   ║
╚═══════════════╪════════════════╝
                │ (内网通信)
         企业内部系统
   (SAP / Salesforce / 数据库)

五、模型目录全解:11,000+ 模型选型指南

5.1 部署类型三选一

部署类型 适用场景 计费方式 延迟特性 推荐场景
Standard(标准部署) 开发、测试、间歇性工作负载 按 Token 计费 可能有排队延迟 快速原型、内部工具
Serverless API 按需使用,无需管理基础设施 按 Token 计费(PAYGO) 低延迟 生产环境中低至中等并发
PTU(预置吞吐量) 稳定高并发、SLA 严格 按小时预置容量计费 确定性延迟,无排队 核心生产业务、用户直面应用

💡 选型建议:开发阶段用 Standard,验证业务价值后迁移至 PTU;对于 Agent 密集型工作负载(多轮调用),PTU 的 TCO(总拥有成本)通常优于按量计费。

5.2 2025 旗舰模型速查

模型选型决策树:

你的任务是什么?
│
├─► 复杂多步推理 / 长文档分析
│       └─► GPT-5.2(gpt-5.2 或 gpt-5.2-chat-latest)
│
├─► 代码生成 / CI/CD 集成 / 自主编程 Agent
│       └─► GPT-5.1 Codex Max(400K context,SWE-Bench 77.9%)
│
├─► 成本敏感型 / 高并发小任务
│       └─► GPT-4o-mini / Mistral Large 3($0.50/$1.50 per M tokens)
│
├─► 开源可微调 / 数据主权要求
│       └─► Llama 3.3 70B / DeepSeek V3.2(128K context)
│
├─► 企业 RAG 重排序
│       └─► Cohere Rerank 4(Fast 或 Pro,100+ 语言)
│
├─► 图像生成
│       └─► GPTimage1.5(4× 提速,成本降 20%)/ FLUX.2 [pro]
│
└─► 实时语音(ASR / TTS)
        └─► gpt-4o-mini-transcribe / gpt-4o-mini-tts(2025-12-15 GA)

5.3 模型路由(Model Router)— GA 新特性

Model Router 于 2025 年 11 月正式 GA,让平台自动完成"用对的模型做对的事":

# 无需指定具体模型,让 Foundry 自动路由
response = openai_client.chat.completions.create(
    model="model-router",          # 使用路由策略
    messages=[{"role": "user", "content": prompt}],
    extra_body={
        "routing_policy": "cost_optimized"  # 或 "performance" / "balanced"
    }
)
# 返回头部包含实际使用的模型信息
print(response.model)  # e.g., "gpt-4o-mini"

六、动手实战:5 步快速上手

前置准备

必要条件:

  • Azure 订阅(免费试用或付费)
  • Python 3.9+
  • Azure CLI 已安装并登录(az login

在 Azure Portal 中创建 Foundry 资源:

# 方式一:Azure CLI 创建
az cognitiveservices account create \
  --name "my-foundry-resource" \
  --resource-group "rg-ai-prod" \
  --kind "AIServices" \
  --sku "S0" \
  --location "eastus2" \
  --yes

# 创建 Project(子资源)
az cognitiveservices account project create \
  --name "my-first-project" \
  --resource-group "rg-ai-prod" \
  --account-name "my-foundry-resource"

Step 1:安装 SDK 与配置环境变量

# 安装最新版 azure-ai-projects SDK(v2 beta 统一包)
pip install azure-ai-projects==2.0.0b3 azure-identity openai

# 可选:安装评测工具
pip install azure-ai-evaluation==1.14.0

创建项目根目录下的 .env 配置文件:

# .env — 请勿提交至版本控制系统
# ─────────────────────────────────────────────────────────────────
# Microsoft Foundry 项目端点
# 格式:https://<hub-name>.services.ai.azure.com/api/projects/<project-name>
AZURE_AI_PROJECT_ENDPOINT=https://my-foundry-resource.services.ai.azure.com/api/projects/my-first-project

# 模型部署名称(在 Foundry Portal 中创建部署后获得)
AZURE_AI_MODEL_DEPLOYMENT=gpt-5.2

# (可选)Azure OpenAI 兼容端点(如使用旧版 SDK)
AZURE_OPENAI_ENDPOINT=https://my-foundry-resource.openai.azure.com/
AZURE_OPENAI_API_VERSION=2025-01-01-preview

# (可选)用于本地开发的 API Key(生产环境必须使用 Managed Identity)
# AZURE_AI_API_KEY=<your-key>

Step 2:初始化项目客户端

# client_init.py
import os
from dotenv import load_dotenv
from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential, AzureCliCredential

# 加载环境变量
load_dotenv()

def get_project_client() -> AIProjectClient:
    """
    初始化 Microsoft Foundry 项目客户端。

    认证策略(DefaultAzureCredential 自动选择):
      本地开发  → Azure CLI 凭据(az login)
      CI/CD    → 环境变量 AZURE_CLIENT_ID / SECRET / TENANT
      生产环境  → 托管身份(Managed Identity)

    推荐在生产环境中使用 ManagedIdentityCredential
    确保零密钥、零证书的安全访问。
    """
    endpoint = os.environ["AZURE_AI_PROJECT_ENDPOINT"]

    client = AIProjectClient(
        endpoint=endpoint,
        credential=DefaultAzureCredential(
            # 排除交互式浏览器认证,避免在 CI/CD 中阻塞
            exclude_interactive_browser_credential=True
        )
    )

    print(f"✅ Foundry 客户端初始化成功")
    print(f"   端点:{endpoint}")
    return client


if __name__ == "__main__":
    client = get_project_client()

Step 3:获取 OpenAI 客户端并执行首次对话

# chat_completion.py
import os
from client_init import get_project_client

def run_chat_demo():
    client = get_project_client()

    # 从 Foundry 项目获取已配置的 OpenAI 客户端
    # 自动继承项目端点、认证和部署配置
    openai_client = client.get_openai_client()

    model = os.environ.get("AZURE_AI_MODEL_DEPLOYMENT", "gpt-5.2")

    # ── 基础对话示例 ──────────────────────────────────────────────
    print("\n🤖 基础对话模式\n" + "─" * 50)

    response = openai_client.chat.completions.create(
        model=model,
        messages=[
            {
                "role": "system",
                "content": (
                    "你是一位微软 Azure AI 技术专家。"
                    "请用简洁精准的语言回答问题,"
                    "关键术语保留英文原文。"
                )
            },
            {
                "role": "user",
                "content": "请用三句话解释 Microsoft Foundry 的核心价值主张。"
            }
        ],
        temperature=0.3,       # 低温度:保证答案稳定可重复
        max_tokens=512,
        seed=42                # 可重复性:相同输入输出一致
    )

    answer = response.choices[0].message.content
    print(f"模型回答:\n{answer}")
    print(f"\n📊 Token 用量:prompt={response.usage.prompt_tokens},"
          f"completion={response.usage.completion_tokens},"
          f"total={response.usage.total_tokens}")

    return answer


if __name__ == "__main__":
    run_chat_demo()

Step 4:流式输出(Streaming)

对于用户直面的应用,流式输出能将首字节延迟从 2-5 秒降至 < 500ms,显著提升用户体验:

# streaming_demo.py
import os
from client_init import get_project_client

def run_streaming_demo(user_question: str):
    """
    流式输出示例。
    适用场景:聊天界面、实时内容生成、长文本输出。
    关键优化:
      - 首字节延迟(TTFT)从 ~3s 降至 < 500ms
      - 用户感知质量显著提升
    """
    client = get_project_client()
    openai_client = client.get_openai_client()
    model = os.environ.get("AZURE_AI_MODEL_DEPLOYMENT", "gpt-5.2")

    print(f"\n🌊 流式输出 | 问题:{user_question}\n")
    print("─" * 60)

    full_response = []

    # stream=True 启用服务端推送事件(SSE)
    stream = openai_client.chat.completions.create(
        model=model,
        messages=[
            {"role": "system", "content": "你是 Azure AI 技术顾问,回答要深入浅出。"},
            {"role": "user",   "content": user_question}
        ],
        stream=True,
        temperature=0.5,
        max_tokens=1024
    )

    for chunk in stream:
        delta = chunk.choices[0].delta if chunk.choices else None
        if delta and delta.content:
            print(delta.content, end="", flush=True)  # 实时打印,无缓冲
            full_response.append(delta.content)

    print("\n" + "─" * 60)
    print(f"\n✅ 输出完成,总字符数:{sum(len(c) for c in full_response)}")

    return "".join(full_response)


if __name__ == "__main__":
    run_streaming_demo("什么是 Foundry IQ?它与传统 RAG 有何本质区别?")

Step 5:JSON 结构化输出(企业场景常用)

# structured_output.py
import json
import os
from client_init import get_project_client

# 定义输出的 JSON Schema
ANALYSIS_SCHEMA = {
    "type": "object",
    "properties": {
        "summary":       {"type": "string", "description": "核心摘要,不超过100字"},
        "key_points":    {"type": "array", "items": {"type": "string"}, "description": "关键要点列表"},
        "risks":         {"type": "array", "items": {"type": "string"}, "description": "风险项,以⚠️开头"},
        "confidence":    {"type": "integer", "minimum": 0, "maximum": 100, "description": "置信度评分"},
        "action_items":  {"type": "array", "items": {"type": "string"}, "description": "建议行动项"}
    },
    "required": ["summary", "key_points", "risks", "confidence"]
}

def analyze_document(document_text: str) -> dict:
    """
    使用 GPT-5.2 对企业文档进行结构化分析。
    输出严格遵循 JSON Schema,方便下游系统处理。
    """
    client = get_project_client()
    openai_client = client.get_openai_client()
    model = os.environ.get("AZURE_AI_MODEL_DEPLOYMENT", "gpt-5.2")

    response = openai_client.chat.completions.create(
        model=model,
        messages=[
            {
                "role": "system",
                "content": (
                    "你是企业文档分析专家。"
                    "请严格按照指定 JSON 格式输出分析结果,"
                    "不要添加任何 JSON 以外的内容。"
                )
            },
            {
                "role": "user",
                "content": f"请分析以下文档:\n\n{document_text}"
            }
        ],
        response_format={"type": "json_object"},  # 强制 JSON 输出
        temperature=0.1,    # 低温度保证格式稳定
        max_tokens=2048
    )

    result = json.loads(response.choices[0].message.content)
    return result


if __name__ == "__main__":
    sample_doc = """
    本季度 Azure AI 服务收入同比增长 157%,
    主要驱动力来自 Copilot 商业版和 Azure OpenAI Service。
    风险项:GPU 供应链紧张可能影响 Q4 产能扩张计划。
    建议:加速 PTU 预售,锁定 2026 年容量。
    """
    result = analyze_document(sample_doc)
    print(json.dumps(result, ensure_ascii=False, indent=2))

输出示例:

{
  "summary": "Azure AI 服务收入高速增长,但 GPU 供应链存在风险",
  "key_points": [
    "Azure AI 服务收入同比增长 157%",
    "Copilot 商业版是主要增长驱动力",
    "Azure OpenAI Service 贡献显著"
  ],
  "risks": [
    "⚠️ GPU 供应链紧张可能影响 Q4 产能扩张计划"
  ],
  "confidence": 88,
  "action_items": [
    "加速 PTU 预售以锁定 2026 年容量",
    "密切监控 GPU 供应商交货周期"
  ]
}

七、MCP Server 云端接入

Model Context Protocol(MCP)是 AI 工具集成的新标准,允许 LLM 通过标准化接口调用外部工具和服务。Microsoft Foundry MCP Server 于 2025 年 12 月 3 日上线,提供云托管、零本地配置的 MCP 端点。

mcp.ai.azure.com  ←  Foundry MCP Server
     │
     │  Entra ID OAuth2 认证(无密码、无证书)
     │  RBAC 权限自动继承
     │  完整 Azure 审计日志
     ▼
┌─────────────────────────────────────────────┐
│           可调用工具(Tools)                │
├─────────────────────────────────────────────┤
│ 📦 模型操作    浏览目录、比较基准、管理配额   │
│ 🤖 Agent 管理  创建、更新、版本管理           │
│ 📊 评测流水线  数据集创建、评测运行、对比分析  │
│ 🔍 知识搜索    Foundry IQ Grounding API      │
└─────────────────────────────────────────────┘

7.1 VS Code 一键接入

方式一:扩展市场一键安装(推荐)

在 VS Code 中搜索并安装 “Microsoft Foundry” 扩展,然后在命令面板执行 Foundry: Connect to MCP Server,即可自动生成以下配置。

方式二:手动配置 .vscode/mcp.json

// .vscode/mcp.json
// 将此文件加入版本控制,团队成员共享配置
{
  "servers": {
    "foundry-mcp": {
      "type": "http",
      "url": "https://mcp.ai.azure.com",
      "auth": {
        "type": "entra",
        "scope": "https://mcp.ai.azure.com/.default"
      }
    }
  }
}

配置完成后,在 VS Code GitHub Copilot Chat 中切换到 Agent 模式@workspace),即可通过自然语言调用 Foundry 工具:

@workspace 帮我在 Foundry 中查询 gpt-5.2 和 claude-opus-4.1 在代码生成任务上的基准评分对比
@workspace 在当前项目中创建一个名为 "customer-service-agent" 的 Agent,
使用 gpt-5.2 模型,系统提示设置为 "你是专业客服助手"

7.2 Python SDK 调用 MCP 工具

# mcp_tools_demo.py
import os
from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential

def list_available_models_via_mcp():
    """通过 Foundry MCP Server 列出可用模型(需 Azure AI User 角色)"""

    client = AIProjectClient(
        endpoint=os.environ["AZURE_AI_PROJECT_ENDPOINT"],
        credential=DefaultAzureCredential()
    )

    # 通过 Foundry 客户端枚举模型部署
    deployments = client.deployments.list()

    print("📦 当前项目已部署模型:\n")
    for dep in deployments:
        print(f"  • {dep.name:<30} | 模型: {dep.model_name:<20} | 状态: {dep.state}")

    return list(deployments)


if __name__ == "__main__":
    list_available_models_via_mcp()

八、生产环境最佳实践

8.1 网络安全加固

# 为 Foundry 资源启用私有端点(禁止公网直接访问)
az network private-endpoint create \
  --name "pe-foundry-prod" \
  --resource-group "rg-ai-prod" \
  --vnet-name "vnet-prod" \
  --subnet "snet-ai-services" \
  --private-connection-resource-id \
    "/subscriptions/<sub-id>/resourceGroups/rg-ai-prod/providers/Microsoft.CognitiveServices/accounts/my-foundry-resource" \
  --group-id "account" \
  --connection-name "conn-foundry-prod"

# 禁止公网访问
az cognitiveservices account update \
  --name "my-foundry-resource" \
  --resource-group "rg-ai-prod" \
  --custom-domain "my-foundry-resource" \
  --public-network-access "Disabled"

8.2 密钥与机密管理

# secrets_best_practice.py
"""
生产环境机密管理最佳实践:
❌ 禁止:硬编码 API Key 到代码或环境变量
❌ 禁止:API Key 写入 .env 文件并提交到 Git
✅ 推荐:使用 Managed Identity + Azure Key Vault
✅ 推荐:使用 DefaultAzureCredential 自动选择最优认证
"""
from azure.identity import ManagedIdentityCredential, DefaultAzureCredential
from azure.keyvault.secrets import SecretClient

def get_secret_from_keyvault(secret_name: str) -> str:
    """从 Azure Key Vault 安全读取密钥,使用托管身份认证"""

    # 生产环境:使用系统分配的托管身份
    credential = ManagedIdentityCredential()

    kv_client = SecretClient(
        vault_url=f"https://kv-ai-prod.vault.azure.net/",
        credential=credential
    )

    secret = kv_client.get_secret(secret_name)
    return secret.value

8.3 监控与可观测性配置

# observability_setup.py
"""
Foundry 支持 OpenTelemetry(OTel)原生集成。
配置后,每次模型调用、Agent 步骤、工具使用均自动上报 Azure Monitor。
"""
import os
from azure.monitor.opentelemetry import configure_azure_monitor
from opentelemetry import trace

def setup_observability():
    # 配置 Azure Monitor 导出器(连接字符串从 Application Insights 获取)
    configure_azure_monitor(
        connection_string=os.environ["APPLICATIONINSIGHTS_CONNECTION_STRING"]
    )

    tracer = trace.get_tracer("azure-ai-foundry-app")

    # 此后所有 Foundry SDK 调用自动附加 gen_ai.* OTel 属性
    # 包括:gen_ai.provider.name、gen_ai.model.name、gen_ai.usage.* 等
    return tracer


# Foundry SDK v2 OTel 属性参考:
OTel_ATTRIBUTES = {
    "gen_ai.provider.name":     "microsoft.foundry",
    "gen_ai.model.name":        "gpt-5.2",
    "gen_ai.usage.input_tokens": 1024,
    "gen_ai.usage.output_tokens": 512,
    "gen_ai.request.temperature": 0.3
}

Azure Monitor 关键告警规则(推荐配置):

指标 告警阈值 告警级别 建议动作
模型调用延迟 P99 > 10 秒 Warning 检查网络、切换区域
4xx 错误率 > 5% Critical 检查 Token 配额和认证
429 限流率 > 1% Warning 增加 PTU 或启用排队
Token 消耗速率 > 预算 90% Warning 审查调用方,启用限流
Content Safety 拦截率 > 3% Critical 人工审查,更新过滤策略

8.4 成本优化策略

💰 四大成本控制维度:

1. 模型降级策略
   ┌─────────────────────────────────────────────────────┐
   │ 任务复杂度评估  →  简单任务用 gpt-4o-mini            │
   │  (Model Router 可自动化此决策)                       │
   └─────────────────────────────────────────────────────┘

2. 语义缓存(Semantic Cache)
   ┌─────────────────────────────────────────────────────┐
   │ 相似问题命中缓存  →  减少重复 LLM 调用 30-60%       │
   │ 工具:Azure Cache for Redis + 向量相似度匹配        │
   └─────────────────────────────────────────────────────┘

3. 批处理 API(Batch API)
   ┌─────────────────────────────────────────────────────┐
   │ 非实时任务(报告生成、数据标注)→  成本降低 50%      │
   │ 吞吐量更高,适合离线处理场景                         │
   └─────────────────────────────────────────────────────┘

4. PTU 预置容量规划
   ┌─────────────────────────────────────────────────────┐
   │ 分析 30 天调用日志  →  预测 P95 负载                │
   │ 按峰值配置 PTU      →  高峰期零排队、成本可预测      │
   └─────────────────────────────────────────────────────┘

8.5 生产部署检查清单

□ 架构与资源
  ☑ Foundry 资源和 Project 已按照最小权限原则配置 RBAC
  ☑ 私有端点已启用,公网访问已禁止
  ☑ 跨区域灾备策略已规划(主备区域)
  ☑ 模型部署已使用 PTU(高并发场景)

□ 安全与合规
  ☑ 所有 AI Agent 已注册 Entra Agent ID
  ☑ Azure Content Safety 已集成到调用链
  ☑ Microsoft Purview 数据分类标签已应用于训练/检索数据
  ☑ Defender for Cloud 已启用 AI 工作负载保护
  ☑ 推理日志保留期 ≥ 90 天(GDPR 合规基线)

□ 可观测性
  ☑ Application Insights + OTel 已配置
  ☑ 关键指标告警已设置(延迟、错误率、Token 消耗)
  ☑ Foundry Control Plane 仪表板已配置团队访问

□ 成本管理
  ☑ Azure Cost Management 预算告警已配置
  ☑ 已实施语义缓存(适用场景)
  ☑ Model Router 已启用(降低无谓高成本模型使用)

九、演进路线图

9.1 平台演进时间线

2023 Q4   Azure AI Studio 发布
           └─ 模型游乐场 + 基础 Prompt Flow
                    │
2024 Q2   Azure AI Studio → Azure AI Foundry(更名)
           └─ 增加 Hub/Project 架构,强化 MLOps 集成
                    │
2024 Q4   Azure AI Foundry GA
           └─ Prompt Flow GA,RAG 工具链完善
                    │
2025 Q1   Azure AI Agent Service 公开预览
           └─ 首个托管 Agent 运行时
                    │
2025 Q2   Microsoft Build 2025
           └─ Agent Service GA,多 Agent 工作流
           └─ Foundry MCP Server(Build Preview)
                    │
2025 Q4   Microsoft Ignite 2025 🔥
           └─ Azure AI Foundry → Microsoft Foundry(品牌升级)
           └─ Foundry IQ / Fabric IQ / Work IQ 统一智能层发布
           └─ Anthropic Claude 4.5 系列入驻
           └─ Foundry Control Plane 预览
           └─ Model Router GA
                    │
2025 Dec  GPT-5.2 GA,GPT-5.1 Codex Max GA
           └─ Foundry MCP Server 云端上线(mcp.ai.azure.com)
           └─ azure-ai-projects v2.0.0b3(统一 SDK)
           └─ Foundry Local 登陆 Android
                    │
2026 Mar  ← 我们现在在这里
           └─ AzureML SDK v1 停止支持倒计时(2026-06-30)

9.2 重要迁移警告

🚨 立即行动:AzureML SDK v1 迁移

组件 停止支持时间 当前状态
AzureML CLI v1 扩展 2025-09-30 ❌ 已下线
AzureML SDK v1(Python) 2026-06-30 ⚠️ 停止支持倒计时
AzureML SDK v2 持续迭代中 ✅ 推荐使用

SDK v2 核心变化:

9.3 2026 年技术展望

  • Foundry Local 全平台:Windows / Mac / Android,560M+ 设备的端侧推理
  • Agent 365 全面 GA:Copilot Studio + Foundry 无缝互通,部署到 M365 生态
  • Foundry Control Plane GA:企业级 AI 治理标配
  • 多模态 Agent 成熟:Computer Use + 视觉 + 语音的统一 Agent 框架

十、总结与下一篇预告

本文核心收获

经过本文的系统梳理,相信你已经建立了对 Microsoft Foundry 的完整认知框架:

✅ 理解了 Foundry 四大支柱的定位与协作关系
   (Models → Agent Service → IQ → Control Plane)

✅ 掌握了 IQ 三位一体架构的设计逻辑
   (Work IQ + Fabric IQ + Foundry IQ → 统一上下文层)

✅ 熟悉了 Foundry 资源模型和安全架构
   (Foundry 资源 → Project → RBAC → 网络隔离 → 存储策略)

✅ 能够快速完成 SDK 安装、客户端初始化和首次 API 调用

✅ 了解了 MCP Server 云端接入方式和 VS Code 集成

✅ 掌握了生产部署的关键最佳实践与合规检查清单

Microsoft Foundry 不是一个单一产品,而是一套经过精心设计的企业 AI 工程体系。它将过去散落在多个服务之间的能力——模型访问、Agent 运行时、RAG 引擎、MLOps 工具链、安全治理——整合进统一的开发者体验和运营框架。

对于正在规划或扩展 AI 能力的企业而言,Foundry 提供的不仅是技术工具,更是一套经过生产验证的 AI 工程方法论


📢 下一篇预告

博客 #2:Azure OpenAI Service 深度实践 —— GPT-5.2 企业级部署、Prompt 工程与成本优化

预计内容:

  • GPT-5.2 vs GPT-5.1 Codex Max 深度对比与选型
  • 企业级 Prompt 工程:System Prompt 模板库、少样本学习、思维链
  • 部署类型选型:Standard / Serverless / PTU 决策树
  • 成本优化四板斧:模型降级、语义缓存、批处理、PTU 规划
  • 多模态应用:GPTimage1.5 与 gpt-4o-mini-transcribe 集成实战
  • 生产可靠性:重试策略、熔断器、降级方案

参考资料

资源 链接
Microsoft Foundry 官方文档 https://azure.microsoft.com/en-us/products/ai-foundry
Foundry 架构参考 https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/architecture
Ignite 2025 Foundry 全部公告 https://azure.microsoft.com/en-us/blog/microsoft-foundry-scale-innovation-on-a-modular-interoperable-and-secure-agent-stack/
Azure Ignite 2025 全部公告汇总 https://azure.microsoft.com/en-us/blog/azure-at-microsoft-ignite-2025-all-the-intelligent-cloud-news-explained/
Foundry Dec 2025/Jan 2026 更新日志 https://devblogs.microsoft.com/foundry/whats-new-in-microsoft-foundry-dec-2025-jan-2026/
azure-ai-projects SDK(PyPI) https://pypi.org/project/azure-ai-projects/
Foundry MCP Server 入门 https://learn.microsoft.com/en-us/azure/ai-foundry/mcp/get-started
Work IQ / Fabric IQ / Foundry IQ 解析 https://infusedinnovations.com/blog/work-iq-fabric-iq-and-foundry-iq
AzureML SDK v2 迁移指南 https://learn.microsoft.com/en-us/azure/machine-learning/migrate-v1-to-v2
Foundry 模型目录 https://ai.azure.com/catalog/models

本文属于「Azure AI 全栈实践」系列,持续更新。如有疑问或技术讨论,欢迎在评论区留言。

© 2026 Azure AI 全栈实践系列 | 基于 Microsoft 官方文档与 Ignite 2025 发布内容

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐