学习课程:https://www.secretflow.org.cn/community/bootcamp/2narwgw4ub8rabq/course/pnu8qpt2flzhe23

主讲人:蚂蚁密算 周爱辉
课程核心:密态大模型的技术原理、应用价值及实操搭建

一、问题定义:AI时代大模型的核心痛点

1. 产业应用现状

AI时代下,大模型正走向产业深度应用,但对高质量、专业化数据的需求日益迫切,而行业大模型构建面临多重瓶颈。

2. 核心痛点拆解

  • 数据与模型供需错配:部分主体拥有高质量数据,但缺乏大模型构建能力;

  • 数据安全焦虑:数据/模型提供方担心专业数据泄露,不敢信任外部机构使用;

  • 查询内容(Query)安全风险:模型使用方面临Query中个人隐私、商业机密的泄露问题;

  • 瓶颈影响:上述安全问题阻碍大模型产业落地,亟需解决方案。

3. 蜜台大模型的解决方向

通过密态(MITI)大模型,解决数据、模型及Query的安全问题,最终实现高价值数据的安全交互与应用。

二、密态大模型核心原理:基于机密计算的安全保障

1. 基础支撑:机密计算(Confidential Computing)

(1)核心定义

聚焦“数据使用中(In-use)安全”——数据生命周期分为“存储(At rest)、传输(In transit)、使用(In use)”三环节,机密计算专门保障“使用中”的内存数据安全。

(2)技术核心:可信执行环境(TEE)

  • 本质:隔离的安全环境,仅允许授权代码执行,外部无法读取或篡改TEE内数据;

  • 关键概念:Enclave(飞地)——TEE的具体实例,为特定代码和数据提供隔离保护;

  • 威胁模型:云环境中,云厂商及其他角色无法获取TEE内的代码和数据;

  • 三大核心特性
    隔离性:与非可信执行环境(RE)强隔离,攻击面小,安全性不依赖RE;

  • 加密性:TEE硬件提供内存加密能力,防止RE环境读取/修改TEE内存;

  • 远程证明:TEE硬件作为信任根,生成可验证的环境报告,确保运行环境真实可信。

2. 密态大模型的安全流转逻辑

核心目标:实现“数据可用不可见”,覆盖大模型“推理”和“后训练”全流程。

(1)大模型推理流程(Query安全保护)

  1. 模型部署:模型持有者加密模型并上传至云端,云端将模型加载至TEE内,启动推理服务并对外提供API;

  2. 远程认证:用户端(API/SDK/浏览器)向推理服务发起认证请求,TEE生成带硬件签名的认证报告(含硬件、固件等信息),经可信根机构验证后,用户确认环境可信;

  3. 加密交互:用户端用推理服务公钥加密“数据密钥”,再用数据密钥加密Query内容,密文传输至TEE;

  4. 推理与反馈:TEE内用私钥解密数据密钥,再解密Query并执行推理,推理结果用数据密钥加密后返回,用户端最终解密获取明文结果。

(2)大模型后训练流程(数据与模型双保护)

  1. 参与方与准备:模型持有者、数据持有者分别加密模型/数据,上传至云端;

  2. 密钥与策略管理:密态数据协同管理器(跑在TEE内)托管加密密钥,同时管理授权策略(如“数据仅用于后训练”);

  3. 权限校验与密钥下发:后训练应用(跑在TEE内)请求密钥时,管理器校验其是否符合授权策略,通过后加密下发密钥;

  4. 安全训练:应用用密钥解密模型/数据,在TEE内完成SFT(有监督微调)、强化学习等后训练及评测,全程数据不泄露。

3. 典型应用案例

(1)MOTOP7 IM的AI应用安全

  • 痛点:IM的B端客户有大模型使用需求,但核心数据(私聊消息、文档等)不敢直接交予第三方模型;

  • 方案:基于蜜台大模型实现“Query-推理服务-输出”全链路加密,输入输出均为密文;

  • 价值:保护企业商业机密与用户隐私,推动AI应用在IM场景落地。

(2)密态大模型知识库

  • 痛点:企业/个人有私域知识库(含商业机密),但不敢直接使用外部云大模型,自建成本高;

  • 方案:端侧知识库检索结果+用户Query加密后送入云大模型,模型输出加密返回;

  • 价值:无需自建大模型,即可安全使用云服务,提升答案可靠性与业务效率,助力垂直领域大模型训练。

三、实操:从零搭建密态大模型推理服务

1. 核心依赖:TrustFlow框架

  • 定位:蚂蚁密算开源的TEE计算框架,提供机密计算透明化框架(CCTF),支持应用无缝迁移至TEE环境;

  • 核心能力:远程认证代理、数据安全管控、支持机器学习/深度学习/大模型等场景;

  • 开源地址:课程提及的地址可自行访问获取。

2. 环境准备

类别 具体要求
硬件 X86服务器(推荐配备英伟达GPU);非X86架构参考VRM官网说明
网络 可访问外网(用于获取模型资源)
软件 Python ≥ 3.10;Docker ≥ 19.03
说明:无需强制准备TEE硬件(普及度有限),普通机器可实现仿真部署,原理完全一致。

3. 部署步骤(基于Docker)

  1. 克隆代码仓库:执行git clone [TrustFlow开源地址]

  2. 进入实例目录:切换至课程指定的实例代码目录;

  3. 启动服务:执行docker-compose up,出现指定日志即表示服务启动成功。

4. 服务验证

  1. 安装依赖:执行pip install [必要依赖]

  2. 调用推理服务:执行python JWClient.py(脚本含默认查询“你好”);

  3. 验证结果:成功接收模型明文回复(如“你好,有什么可以帮助你吗”),即表示部署生效。

5. 核心机制说明

部署架构含3个容器,体现CCTF框架的透明化优势:

  • Sidecar容器:提供远程认证代理等能力;

  • Envoy容器:负责通信转发;

  • 核心原理:密态大模型基于机密计算(TEE),实现大模型推理、后训练全流程的“数据、模型、Query”安全保护,核心是“可用不可见”;

实操价值:基于TrustFlow的CCTF框架,可零基础快速搭建密态大模型推理服务,降低安全大模型的落地门槛;

  1. 核心原理:蜜台大模型基于机密计算(TEE),实现大模型推理、后训练全流程的“数据、模型、Query”安全保护,核心是“可用不可见”;

  2. 实操价值:基于TrustFlow的CCTF框架,可零基础快速搭建蜜台大模型推理服务,降低安全大模型的落地门槛;

  3. 产业意义:解决大模型产业应用的安全瓶颈,推动企业/个人敢用、能用私域数据,助力垂直领域专业大模型的构建。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐