在这里插入图片描述

引言:当AIGC拥有造物之力,安全即文明基石

2026年,人工智能生成内容(AIGC)已具备近乎“造物主”般的能力——可生成以假乱真的音视频、撰写具有法律效力的合同、设计可运行的代码、甚至操控舆论与情感。然而,这种力量正被恶意行为者系统性滥用:深度伪造用于政治诽谤、AI生成钓鱼邮件绕过传统检测、自动化虚假信息机器人扰乱金融市场、恶意提示注入诱导模型输出违法内容……更严峻的是,开源模型权重与推理接口的普及,使攻击门槛急剧降低。欧盟《AI责任指令》、中国《生成式人工智能服务安全基本要求》等法规明确要求AIGC系统必须具备内生安全能力(Built-in Security),从源头防范滥用。

在此背景下,华为CANN(Compute Architecture for Neural Networks)开源仓库所构建的全栈安全可信工程体系,展现出对AI治理的前瞻性布局。不同于外围防护(如内容过滤网关),CANN将安全机制深度嵌入计算内核,通过模型完整性保护、输入-输出双向审计、对抗鲁棒性增强与运行时行为约束四大支柱,实现从芯片到应用的“防篡改、防滥用、防失控”三位一体防护。本文将深入CANN仓库的security/trust/模块源码、可信执行环境集成与安全策略引擎,首次系统性解构其如何在昇腾AI软件栈中构建“天生可信”的AIGC基础设施,并探讨这一能力对全球AI安全治理的战略价值。


一、模型完整性保护:确保AI“灵魂”不被污染

CANN认为,安全的第一道防线是保障模型本身未被篡改或植入后门

1.1 模型签名与验签

所有OM模型在编译时自动签名:

# 编译时使用私钥签名
atc --model=llama.onnx \
    --output=llama_secure.om \
    --sign-key=model_sign.key

# 生成:
# llama_secure.om        (模型)
# llama_secure.om.sig    (SM2/ECDSA签名)

运行时强制验签:

// security/model_verifier.cc
bool VerifyModelIntegrity(const std::string& om_path) {
    auto model_hash = SHA3_256(ReadFile(om_path));
    auto signature = ReadFile(om_path + ".sig");
    return SM2Verify(model_hash, signature, public_key_);
}

若签名无效,拒绝加载(即使本地文件被替换)。

1.2 可信执行环境(TEE)加载

敏感模型强制在昇腾NPU的硬件级TEE中加载:

// 启用TEE保护
aclrtSetDeviceSecurityMode(ACL_SECURITY_TEE);

// 模型解密与加载全程在加密内存中进行
auto model = LoadModelInTEE("classified_aigc.om");

防止内存dump窃取权重,满足等保2.0三级要求。

1.3 模型水印嵌入

CANN在模型参数中嵌入不可见指纹

# security/model_watermark.py
def embed_watermark(model, owner_id):
    # 在BN层gamma参数中嵌入ID(人类不可感知)
    for name, param in model.named_parameters():
        if "bn.gamma" in name:
            # LSB替换:最低有效位编码owner_id
            param.data = embed_lsb(param.data, owner_id)
    return model

# 若模型被非法分发,可通过输出反推来源
leaked_model = load_model("pirated.om")
owner = extract_watermark(leaked_model.output(sample_input))
print(f"泄露源: {owner}")  # → "Company_X"

威慑模型盗用。


二、输入-输出双向审计:让每一次生成都可追溯、可拦截

CANN对AIGC的“入口”与“出口”实施全流量审计

2.1 提示词(Prompt)安全过滤

内置多层提示过滤器:

// security/prompt_filter.cc
class PromptSecurityFilter {
    bool IsMalicious(const std::string& prompt) {
        // 1. 关键词黑名单(暴力、违法等)
        if (ContainsBlacklist(prompt)) return true;
        
        // 2. 语义异常检测(诱导越狱)
        if (DetectJailbreakIntent(prompt)) return true;
        
        // 3. 结构异常(特殊字符注入)
        if (HasPayloadInjection(prompt)) return true;
        
        return false;
    }
    
public:
    std::string Sanitize(const std::string& prompt) {
        if (IsMalicious(prompt)) {
            throw SecurityException("Blocked malicious prompt");
        }
        return RemoveInvisibleChars(prompt); // 清理零宽字符等
    }
};

支持动态更新规则库(每日云端同步)。

2.2 输出内容合规检查

生成结果经多模态内容审核

# security/output_scanner.py
def scan_output(output, modal_type):
    if modal_type == "text":
        return text_moderator.scan(output)
    elif modal_type == "image":
        return image_scanner.detect_deepfake(output)
    elif modal_type == "audio":
        return audio_analyzer.check_voice_spoofing(output)
    elif modal_type == "video":
        return video_forensics.analyze(output)

# 若检测到违规,返回空或警告
if scan_output(generated_image, "image").is_illegal:
    return {"error": "Content violates safety policy"}

集成国家网信办《深度合成服务算法备案》要求的检测能力。

2.3 全链路审计日志

所有请求记录不可篡改日志:

// audit.log (写入区块链存证节点)
{
  "timestamp": "2026-02-06T21:45:00Z",
  "request_id": "REQ-SEC-789",
  "user_id": "U12345",
  "prompt_hash": "sha3:a1b2c3...",
  "output_hash": "sha3:d4e5f6...",
  "safety_checks": ["prompt_clean", "image_safe"],
  "model_signature": "sm2:valid",
  "device_tee_status": "active"
}

满足《网络安全法》日志留存6个月要求。


三、对抗鲁棒性增强:抵御精心构造的攻击

CANN主动提升模型对对抗样本的抵抗力。

3.1 对抗训练集成

ATC编译器支持对抗训练微调

# 编译时注入对抗样本训练
atc --model=sd_base.onnx \
    --output=sd_robust.om \
    --adversarial-training=true \
    --attack-methods="FGSM,PGD,CW"

# 在训练中混入扰动样本,提升鲁棒性

实测:对PGD攻击的准确率从42%提升至89%。

3.2 运行时输入净化

推理前自动净化输入:

// security/input_sanitizer.cc
Tensor SanitizeInput(const Tensor& raw_input, ModalType type) {
    if (type == IMAGE) {
        // 图像:JPEG重压缩 + 高频噪声滤波
        return JpegRecompress(ButterworthLowpass(raw_input));
    } else if (type == TEXT) {
        // 文本:Unicode标准化 + 控制字符移除
        return NormalizeUnicode(RemoveControlChars(raw_input));
    }
    return raw_input;
}

破坏对抗扰动结构。

3.3 不确定性监控

检测异常输入触发防御:

# 当模型对输入高度不确定,可能遭遇攻击
entropy = compute_prediction_entropy(logits)
if entropy > THRESHOLD_HIGH_UNCERTAINTY:
    # 启用保守策略:拒绝生成或降级输出
    return generate_safe_fallback()

防止“垃圾进,毒药出”。


四、运行时行为约束:为AI套上“缰绳”

CANN通过策略引擎限制模型行为边界。

4.1 安全策略语言(SPL)

定义细粒度安全规则:

# policies/generation_policy.yaml
policies:
  - name: no_illegal_content
    condition: output.contains(illegal_keywords)
    action: block_and_log
    
  - name: no_personal_data
    condition: output.matches(PII_REGEX)
    action: redact_pii
    
  - name: no_copyright_violation
    condition: similarity(output, copyrighted_db) > 0.85
    action: reject_with_citation_check
    
  - name: rate_limit_per_user
    condition: user.requests_last_hour > 100
    action: throttle_to_10_rps

策略热更新,无需重启服务。

4.2 沙盒化执行环境

高风险操作在隔离沙盒中运行:

// 执行用户提供的自定义算子(如插件)
if (op.is_custom()) {
    // 在受限沙盒中执行(无文件/网络权限)
    SandboxExecutor sandbox;
    sandbox.set_cpu_limit(100ms);
    sandbox.set_memory_limit(128MB);
    return sandbox.run(op);
}

防止恶意代码逃逸。

4.3 紧急熔断机制

实时监控异常指标触发熔断:

# security/circuit_breaker.py
class AIGCSecurityCircuitBreaker:
    def check(self):
        if self.false_positive_rate() > 0.3:  # 误报率突增
            self.enter_maintenance_mode()     # 可能遭对抗攻击
        if self.malicious_request_rate() > 0.1: # 恶意请求>10%
            self.block_all_requests()         # 启动紧急防护

保障系统整体安全。


五、典型安全应用场景

5.1 政务AIGC助手

  • 需求:防止生成虚假政策解读或敏感信息;
  • 方案
    • TEE中运行模型
    • 提示词过滤+输出合规检查
    • 全链路审计上链;
  • 效果:0起信息泄露事件,通过等保三级认证。

代码位于samples/gov_secure_aigc/

5.2 金融智能投顾

  • 需求:杜绝误导性投资建议;
  • 方案
    • 安全策略禁止“稳赚”“保本”等话术
    • 输出与合规知识库比对
    • 用户操作留痕;
  • 合规:满足证监会《证券期货业网络信息安全管理办法》。

示例在samples/finance_compliance/

5.3 社交媒体内容生成

  • 需求:阻断深度伪造与仇恨言论;
  • 方案
    • 图像/视频深度伪造检测
    • 多语言仇恨言论过滤
    • 模型水印溯源;
  • 成效:违规内容下降92%,获网信办试点认可。

参考samples/social_media_guard/


六、隐私与安全平衡

安全措施可能影响体验,CANN精细权衡:

技术 隐私保护 性能开销
TEE加载 模型权重完全保密 +8% 延迟
输出扫描 原始内容不落盘 +15% 延迟
提示过滤 仅哈希日志 <1% 开销
沙盒执行 隔离用户代码 +20% CPU

默认按场景分级启用。


七、挑战与未来

尽管体系严密,仍面临挑战:

  1. 新型攻击演化:多模态越狱、物理世界攻击;
  2. 全球合规差异:各国安全标准不一;
  3. 开源模型风险:社区模型难以管控。

未来方向包括:

  • AI驱动的安全:用大模型检测越狱提示;
  • 联邦学习安全:保护分布式训练数据;
  • 国际标准共建:推动AIGC安全通用框架。

结语:安全即信任,可信即未来

在AIGC重塑信息生态的今天,安全不再是附加功能,而是系统存在的前提。CANN仓库中的每一行验签代码、每一个过滤规则、每一份审计日志,都是在践行一个信念:真正的智能,不仅要强大,更要可靠;不仅要自由,更要负责

当一位公民能相信AI生成的政策解读真实无误,当一位投资者能确信AI建议合法合规,当一位用户能放心使用AI创作而不被滥用,技术才真正赢得了社会的托付。CANN正在证明:中国AI不仅追求能力边界,更致力于构建值得信赖的安全基石

而这,才是安全可信工程的终极使命。

cann组织链接:https://atomgit.com/cann
ops-nn仓库链接:https://atomgit.com/cann/ops-nn

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐