隐语——数据要素流通技术MOOC三期 课程笔记——密态大模型课程笔记
本文介绍了密态大模型的技术原理与应用实践。针对AI时代大模型面临的数据安全、隐私泄露等痛点,提出基于机密计算(TEE)的解决方案,实现数据、模型及查询内容的安全保护。详细阐述了密态大模型的安全流转逻辑,包括推理流程和后训练流程的安全机制,并展示了IM场景和知识库等典型应用案例。实操部分演示了基于TrustFlow框架搭建密态推理服务的完整流程,强调其"可用不可见"的核心价值。该
学习课程:https://www.secretflow.org.cn/community/bootcamp/2narwgw4ub8rabq/course/pnu8qpt2flzhe23
主讲人:蚂蚁密算 周爱辉
课程核心:密态大模型的技术原理、应用价值及实操搭建
一、问题定义:AI时代大模型的核心痛点
1. 产业应用现状
AI时代下,大模型正走向产业深度应用,但对高质量、专业化数据的需求日益迫切,而行业大模型构建面临多重瓶颈。
2. 核心痛点拆解
-
数据与模型供需错配:部分主体拥有高质量数据,但缺乏大模型构建能力;
-
数据安全焦虑:数据/模型提供方担心专业数据泄露,不敢信任外部机构使用;
-
查询内容(Query)安全风险:模型使用方面临Query中个人隐私、商业机密的泄露问题;
-
瓶颈影响:上述安全问题阻碍大模型产业落地,亟需解决方案。
3. 蜜台大模型的解决方向
通过密态(MITI)大模型,解决数据、模型及Query的安全问题,最终实现高价值数据的安全交互与应用。
二、密态大模型核心原理:基于机密计算的安全保障
1. 基础支撑:机密计算(Confidential Computing)
(1)核心定义
聚焦“数据使用中(In-use)安全”——数据生命周期分为“存储(At rest)、传输(In transit)、使用(In use)”三环节,机密计算专门保障“使用中”的内存数据安全。
(2)技术核心:可信执行环境(TEE)
-
本质:隔离的安全环境,仅允许授权代码执行,外部无法读取或篡改TEE内数据;
-
关键概念:Enclave(飞地)——TEE的具体实例,为特定代码和数据提供隔离保护;
-
威胁模型:云环境中,云厂商及其他角色无法获取TEE内的代码和数据;
-
三大核心特性:
隔离性:与非可信执行环境(RE)强隔离,攻击面小,安全性不依赖RE; -
加密性:TEE硬件提供内存加密能力,防止RE环境读取/修改TEE内存;
-
远程证明:TEE硬件作为信任根,生成可验证的环境报告,确保运行环境真实可信。
2. 密态大模型的安全流转逻辑
核心目标:实现“数据可用不可见”,覆盖大模型“推理”和“后训练”全流程。
(1)大模型推理流程(Query安全保护)
-
模型部署:模型持有者加密模型并上传至云端,云端将模型加载至TEE内,启动推理服务并对外提供API;
-
远程认证:用户端(API/SDK/浏览器)向推理服务发起认证请求,TEE生成带硬件签名的认证报告(含硬件、固件等信息),经可信根机构验证后,用户确认环境可信;
-
加密交互:用户端用推理服务公钥加密“数据密钥”,再用数据密钥加密Query内容,密文传输至TEE;
-
推理与反馈:TEE内用私钥解密数据密钥,再解密Query并执行推理,推理结果用数据密钥加密后返回,用户端最终解密获取明文结果。
(2)大模型后训练流程(数据与模型双保护)
-
参与方与准备:模型持有者、数据持有者分别加密模型/数据,上传至云端;
-
密钥与策略管理:密态数据协同管理器(跑在TEE内)托管加密密钥,同时管理授权策略(如“数据仅用于后训练”);
-
权限校验与密钥下发:后训练应用(跑在TEE内)请求密钥时,管理器校验其是否符合授权策略,通过后加密下发密钥;
-
安全训练:应用用密钥解密模型/数据,在TEE内完成SFT(有监督微调)、强化学习等后训练及评测,全程数据不泄露。
3. 典型应用案例
(1)MOTOP7 IM的AI应用安全
-
痛点:IM的B端客户有大模型使用需求,但核心数据(私聊消息、文档等)不敢直接交予第三方模型;
-
方案:基于蜜台大模型实现“Query-推理服务-输出”全链路加密,输入输出均为密文;
-
价值:保护企业商业机密与用户隐私,推动AI应用在IM场景落地。
(2)密态大模型知识库
-
痛点:企业/个人有私域知识库(含商业机密),但不敢直接使用外部云大模型,自建成本高;
-
方案:端侧知识库检索结果+用户Query加密后送入云大模型,模型输出加密返回;
-
价值:无需自建大模型,即可安全使用云服务,提升答案可靠性与业务效率,助力垂直领域大模型训练。
三、实操:从零搭建密态大模型推理服务
1. 核心依赖:TrustFlow框架
-
定位:蚂蚁密算开源的TEE计算框架,提供机密计算透明化框架(CCTF),支持应用无缝迁移至TEE环境;
-
核心能力:远程认证代理、数据安全管控、支持机器学习/深度学习/大模型等场景;
-
开源地址:课程提及的地址可自行访问获取。
2. 环境准备
| 类别 | 具体要求 |
|---|---|
| 硬件 | X86服务器(推荐配备英伟达GPU);非X86架构参考VRM官网说明 |
| 网络 | 可访问外网(用于获取模型资源) |
| 软件 | Python ≥ 3.10;Docker ≥ 19.03 |
| 说明:无需强制准备TEE硬件(普及度有限),普通机器可实现仿真部署,原理完全一致。 |
3. 部署步骤(基于Docker)
-
克隆代码仓库:执行
git clone [TrustFlow开源地址]; -
进入实例目录:切换至课程指定的实例代码目录;
-
启动服务:执行
docker-compose up,出现指定日志即表示服务启动成功。
4. 服务验证
-
安装依赖:执行
pip install [必要依赖]; -
调用推理服务:执行
python JWClient.py(脚本含默认查询“你好”); -
验证结果:成功接收模型明文回复(如“你好,有什么可以帮助你吗”),即表示部署生效。
5. 核心机制说明
部署架构含3个容器,体现CCTF框架的透明化优势:
-
Sidecar容器:提供远程认证代理等能力;
-
Envoy容器:负责通信转发;
-
核心原理:密态大模型基于机密计算(TEE),实现大模型推理、后训练全流程的“数据、模型、Query”安全保护,核心是“可用不可见”;
实操价值:基于TrustFlow的CCTF框架,可零基础快速搭建密态大模型推理服务,降低安全大模型的落地门槛;
-
核心原理:蜜台大模型基于机密计算(TEE),实现大模型推理、后训练全流程的“数据、模型、Query”安全保护,核心是“可用不可见”;
-
实操价值:基于TrustFlow的CCTF框架,可零基础快速搭建蜜台大模型推理服务,降低安全大模型的落地门槛;
-
产业意义:解决大模型产业应用的安全瓶颈,推动企业/个人敢用、能用私域数据,助力垂直领域专业大模型的构建。
更多推荐


所有评论(0)