【论文笔记】RAG MAKES GUARDRAILS UNSAFE? INVESTIGATING ROBUSTNESS OF GUARDRAILS UNDER RAG-STYLE CONTEXTS
作者提出一个不需要人工标注的新指标:Flip Rate(翻转率)定义为:当 guardrail 在 normal context 和 RAG-style context 下给出不同判断就记为一次 Flip。随着大模型从“单模型生成”逐步演进为系统级架构(LLM + Tool + RAG + Guardrails),安全机制本身正成为系统中的一个独立模块。简单的 Prompt 修改或增加推理能力是不
所有评论(0)