隐语——数据要素流通技术MOOC三期课程笔记——密态大模型课程笔记

本文介绍了密态大模型的技术原理与应用实践。针对AI时代大模型面临的数据安全、隐私泄露等痛点，提出基于机密计算（TEE）的解决方案，实现数据、模型及查询内容的安全保护。详细阐述了密态大模型的安全流转逻辑，包括推理流程和后训练流程的安全机制，并展示了IM场景和知识库等典型应用案例。实操部分演示了基于TrustFlow框架搭建密态推理服务的完整流程，强调其"可用不可见"的核心价值。该

云淡风轻~~

994人浏览 · 2025-12-08 09:05:12

云淡风轻~~ · 2025-12-08 09:05:12 发布

学习课程：https://www.secretflow.org.cn/community/bootcamp/2narwgw4ub8rabq/course/pnu8qpt2flzhe23

主讲人：蚂蚁密算周爱辉
课程核心：密态大模型的技术原理、应用价值及实操搭建

一、问题定义：AI时代大模型的核心痛点

1. 产业应用现状

AI时代下，大模型正走向产业深度应用，但对高质量、专业化数据的需求日益迫切，而行业大模型构建面临多重瓶颈。

2. 核心痛点拆解

数据与模型供需错配：部分主体拥有高质量数据，但缺乏大模型构建能力；
数据安全焦虑：数据/模型提供方担心专业数据泄露，不敢信任外部机构使用；
查询内容（Query）安全风险：模型使用方面临Query中个人隐私、商业机密的泄露问题；
瓶颈影响：上述安全问题阻碍大模型产业落地，亟需解决方案。

3. 蜜台大模型的解决方向

通过密态（MITI）大模型，解决数据、模型及Query的安全问题，最终实现高价值数据的安全交互与应用。

二、密态大模型核心原理：基于机密计算的安全保障

1. 基础支撑：机密计算（Confidential Computing）

（1）核心定义

聚焦“数据使用中（In-use）安全”——数据生命周期分为“存储（At rest）、传输（In transit）、使用（In use）”三环节，机密计算专门保障“使用中”的内存数据安全。

（2）技术核心：可信执行环境（TEE）

本质：隔离的安全环境，仅允许授权代码执行，外部无法读取或篡改TEE内数据；
关键概念：Enclave（飞地）——TEE的具体实例，为特定代码和数据提供隔离保护；
威胁模型：云环境中，云厂商及其他角色无法获取TEE内的代码和数据；
三大核心特性：
隔离性：与非可信执行环境（RE）强隔离，攻击面小，安全性不依赖RE；
加密性：TEE硬件提供内存加密能力，防止RE环境读取/修改TEE内存；
远程证明：TEE硬件作为信任根，生成可验证的环境报告，确保运行环境真实可信。

2. 密态大模型的安全流转逻辑

核心目标：实现“数据可用不可见”，覆盖大模型“推理”和“后训练”全流程。

（1）大模型推理流程（Query安全保护）

模型部署：模型持有者加密模型并上传至云端，云端将模型加载至TEE内，启动推理服务并对外提供API；
远程认证：用户端（API/SDK/浏览器）向推理服务发起认证请求，TEE生成带硬件签名的认证报告（含硬件、固件等信息），经可信根机构验证后，用户确认环境可信；
加密交互：用户端用推理服务公钥加密“数据密钥”，再用数据密钥加密Query内容，密文传输至TEE；
推理与反馈：TEE内用私钥解密数据密钥，再解密Query并执行推理，推理结果用数据密钥加密后返回，用户端最终解密获取明文结果。

（2）大模型后训练流程（数据与模型双保护）

参与方与准备：模型持有者、数据持有者分别加密模型/数据，上传至云端；
密钥与策略管理：密态数据协同管理器（跑在TEE内）托管加密密钥，同时管理授权策略（如“数据仅用于后训练”）；
权限校验与密钥下发：后训练应用（跑在TEE内）请求密钥时，管理器校验其是否符合授权策略，通过后加密下发密钥；
安全训练：应用用密钥解密模型/数据，在TEE内完成SFT（有监督微调）、强化学习等后训练及评测，全程数据不泄露。

3. 典型应用案例

（1）MOTOP7 IM的AI应用安全

痛点：IM的B端客户有大模型使用需求，但核心数据（私聊消息、文档等）不敢直接交予第三方模型；
方案：基于蜜台大模型实现“Query-推理服务-输出”全链路加密，输入输出均为密文；
价值：保护企业商业机密与用户隐私，推动AI应用在IM场景落地。

（2）密态大模型知识库

痛点：企业/个人有私域知识库（含商业机密），但不敢直接使用外部云大模型，自建成本高；
方案：端侧知识库检索结果+用户Query加密后送入云大模型，模型输出加密返回；
价值：无需自建大模型，即可安全使用云服务，提升答案可靠性与业务效率，助力垂直领域大模型训练。

三、实操：从零搭建密态大模型推理服务

1. 核心依赖：TrustFlow框架

定位：蚂蚁密算开源的TEE计算框架，提供机密计算透明化框架（CCTF），支持应用无缝迁移至TEE环境；
核心能力：远程认证代理、数据安全管控、支持机器学习/深度学习/大模型等场景；
开源地址：课程提及的地址可自行访问获取。

2. 环境准备

类别	具体要求
硬件	X86服务器（推荐配备英伟达GPU）；非X86架构参考VRM官网说明
网络	可访问外网（用于获取模型资源）
软件	Python ≥ 3.10；Docker ≥ 19.03
说明：无需强制准备TEE硬件（普及度有限），普通机器可实现仿真部署，原理完全一致。

3. 部署步骤（基于Docker）

克隆代码仓库：执行git clone [TrustFlow开源地址]；
进入实例目录：切换至课程指定的实例代码目录；
启动服务：执行docker-compose up，出现指定日志即表示服务启动成功。

4. 服务验证

安装依赖：执行pip install [必要依赖]；
调用推理服务：执行python JWClient.py（脚本含默认查询“你好”）；
验证结果：成功接收模型明文回复（如“你好，有什么可以帮助你吗”），即表示部署生效。

5. 核心机制说明

部署架构含3个容器，体现CCTF框架的透明化优势：

Sidecar容器：提供远程认证代理等能力；
Envoy容器：负责通信转发；
核心原理：密态大模型基于机密计算（TEE），实现大模型推理、后训练全流程的“数据、模型、Query”安全保护，核心是“可用不可见”；

实操价值：基于TrustFlow的CCTF框架，可零基础快速搭建密态大模型推理服务，降低安全大模型的落地门槛；

核心原理：蜜台大模型基于机密计算（TEE），实现大模型推理、后训练全流程的“数据、模型、Query”安全保护，核心是“可用不可见”；
实操价值：基于TrustFlow的CCTF框架，可零基础快速搭建蜜台大模型推理服务，降低安全大模型的落地门槛；
产业意义：解决大模型产业应用的安全瓶颈，推动企业/个人敢用、能用私域数据，助力垂直领域专业大模型的构建。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

鸿蒙NEXT：会议录音转文字，如何自动标记发言人？

2048 AI社区

Flutter 框架跨平台鸿蒙开发 - 每日心情日记应用开发教程

心情类型（MoodType）veryHappy- 非常开心 😄happy- 开心 😊neutral- 平静 😐sad- 难过 😢verySad- 非常难过 😭angry- 生气 😠anxious- 焦虑 😰excited- 兴奋 🤩tired- 疲惫 😴grateful- 感恩 🙏天气类型（WeatherType）sunny- 晴天 ☀️cloudy- 多云 ☁️rainy-