AI-大语言模型LLM-模型微调7-IA3

IA3（Infused Adapter by Inhibiting and Amplifying Inner Activations）是一种通过三个可学习向量缩放模型内部激活值的超高效微调方法。它仅需极少量参数（通常约0.01%的模型参数），就能在多种任务上达到优异性能。IA3代表了微调技术的极致简化方向——它证明了大模型的适配有时只需要学习“何时强调、何时忽略”的简单规则。通过三个精心放置的缩放

shangjian007

12人浏览 · 2026-02-01 13:51:16

shangjian007 · 2026-02-01 13:51:16 发布

目的

为避免一学就会、一用就废，这里做下笔记

说明

本文内容紧承前文-模型微调1-基础理论，欲渐进，请循序
前面学完了5种不同的微调方法，这里选择第6种微调方法IA3进行学习和实战

IA3介绍

核心理念：三个向量微调大模型

IA3（Infused Adapter by Inhibiting and Amplifying Inner Activations）是一种通过三个可学习向量缩放模型内部激活值的超高效微调方法。它仅需极少量参数（通常约0.01%的模型参数），就能在多种任务上达到优异性能。
在这里插入图片描述

核心原理：学习激活的缩放因子

基本机制

IA3在模型的关键位置引入可学习的缩放向量：

激活输出 = 原始激活 × 学习到的缩放因子

三个关键缩放位置

缩放位置	作用目标	功能描述
Key向量	注意力机制的Key	控制哪些历史信息被关注
Value向量	注意力机制的Value	控制关注后的信息如何整合
FFN输出	前馈网络输出	控制每个神经元对最终输出的贡献

参数效率对比

方法	训练参数量占比	额外推理开销	典型任务效果
全量微调	100%	无	基准(100%)
LoRA	0.1%-1%	无（可合并）	95%-100%
IA3	0.01%-0.1%	极低	90%-98%
Prefix Tuning	0.5%-5%	轻微	92%-99%

技术细节

1. 极简设计

每个可缩放位置只需一个长度等于该层维度的向量
例如：对于隐藏层维度4096的模型，每个缩放向量只有4096个参数
总参数 ≈ 3 × 层数 × 隐藏维度

2. 初始化策略

所有缩放向量初始化为全1向量
保证训练开始时模型行为不变
通过微调学习放大重要特征，抑制不重要特征

3. 应用位置

仅微调注意力层和FFN层
保持所有其他参数完全冻结
在Decoder-only模型中效果尤为显著

性能表现

优势领域

任务类型	IA3效果/全微调	参数量占比
指令遵循	96%-98%	0.01%-0.02%
文本分类	92%-95%	0.01%-0.02%
文本生成	88%-92%	0.02%-0.05%

独特优势

极致高效：参数最少的主流微调方法之一
零推理延迟：缩放因子可预计算，无额外计算
易于实现：只需插入简单的逐元素乘法

配置建议

模型规模	缩放位置	参数量示例
<1B参数	Key, Value, FFN	约10万参数
1B-10B	Key, Value, FFN	约50万参数
>10B	Key, Value	约100万参数

训练技巧

使用比全微调稍大的学习率
可能需要更长的训练时间（但每步更快）
适合多任务联合训练

适用场景

最适合的场景

资源极度受限：边缘设备、移动端部署
多任务适配：同时维护大量任务适配器
快速原型验证：需要快速验证微调效果

限制与考量

在极复杂任务上可能略逊于LoRA
需要仔细选择缩放位置
对超参数（学习率）较敏感

总结

IA3代表了微调技术的极致简化方向——它证明了大模型的适配有时只需要学习“何时强调、何时忽略”的简单规则。通过三个精心放置的缩放向量，IA3以近乎可以忽略的参数代价，实现了接近全微调的效果。

这种方法特别适合工业化部署场景，其中参数效率、推理速度和部署简便性是关键考量。IA3的存在表明：大模型微调不一定需要复杂结构，有时最简单的干预方式就是最有效的。

实战代码（Jupyter）

Step1 导入相关模块

from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer

import datasets
datasets.__version__

'4.5.0'

import transformers
transformers.__version__

'4.56.2'

import warnings
warnings.filterwarnings('ignore')

Step2 加载数据集

ds = load_dataset("json", data_dir="./alpaca_data_zh/")
ds = ds['train']
ds

Dataset({
    features: ['instruction', 'input', 'output'],
    num_rows: 48818
})

ds[:3]

{'instruction': ['保持健康的三个提示。', '三原色是什么？', '描述原子的结构。'],
 'input': ['', '', ''],
 'output': ['以下是保持健康的三个提示：\n\n1. 保持身体活动。每天做适当的身体运动，如散步、跑步或游泳，能促进心血管健康，增强肌肉力量，并有助于减少体重。\n\n2. 均衡饮食。每天食用新鲜的蔬菜、水果、全谷物和脂肪含量低的蛋白质食物，避免高糖、高脂肪和加工食品，以保持健康的饮食习惯。\n\n3. 睡眠充足。睡眠对人体健康至关重要，成年人每天应保证 7-8 小时的睡眠。良好的睡眠有助于减轻压力，促进身体恢复，并提高注意力和记忆力。',
  '三原色通常指的是红色、绿色和蓝色（RGB）。它们是通过加色混合原理创建色彩的三种基础颜色。在以发光为基础的显示设备中（如电视、计算机显示器、智能手机和平板电脑显示屏）, 三原色可混合产生大量色彩。其中红色和绿色可以混合生成黄色，红色和蓝色可以混合生成品红色，蓝色和绿色可以混合生成青色。当红色、绿色和蓝色按相等比例混合时，可以产生白色或灰色。\n\n此外，在印刷和绘画中，三原色指的是以颜料为基础的红、黄和蓝颜色（RYB）。这三种颜色用以通过减色混合原理来创建色彩。不过，三原色的具体定义并不唯一，不同的颜色系统可能会采用不同的三原色。',
  '原子是物质的基本单位，它由三种基本粒子组成：质子、中子和电子。质子和中子形成原子核，位于原子中心，核外的电子围绕着原子核运动。\n\n原子结构具有层次性。原子核中，质子带正电，中子不带电（中性）。原子核非常小且致密，占据了原子总质量的绝大部分。电子带负电，通常围绕核运动，形成若干层次，称为壳层或电子层。电子数量与质子数量相等，使原子呈电中性。\n\n电子在每个壳层中都呈规律分布，并且不同壳层所能容纳的电子数也不同。在最里面的壳层一般只能容纳2个电子，其次一层最多可容纳8个电子，再往外的壳层可容纳的电子数逐层递增。\n\n原子核主要受到两种相互作用力的影响：强力和电磁力。强力的作用范围非常小，主要限制在原子核内，具有极强的吸引作用，使核子（质子和中子）紧密结合在一起。电磁力的作用范围较大，主要通过核外的电子与原子核相互作用，发挥作用。\n\n这就是原子的基本结构。原子内部结构复杂多样，不同元素的原子核中质子、中子数量不同，核外电子排布分布也不同，形成了丰富多彩的化学世界。']}

Step3 数据集预处理

tokenizer = AutoTokenizer.from_pretrained("Langboat/bloom-1b4-zh")
tokenizer

BloomTokenizerFast(name_or_path='Langboat/bloom-1b4-zh', vocab_size=46145, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='left', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'pad_token': '<pad>'}, clean_up_tokenization_spaces=False, added_tokens_decoder={
	0: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	3: AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

def process_func(example):
    MAX_LENGTH = 256
    input_ids, attention_mask, labels = [], [], []
    instruction = tokenizer("\n".join(["Human: "+ example["instruction"], example["input"]]).strip() + "\n\nAssistant: ")
    response = tokenizer(example["output"] + tokenizer.eos_token)
    input_ids = instruction["input_ids"] + response["input_ids"]
    attention_mask = instruction["attention_mask"] + response["attention_mask"]
    labels = [-100] * len(instruction["input_ids"]) + response["input_ids"]
    if len(input_ids) > MAX_LENGTH:
        input_ids = input_ids[:MAX_LENGTH]
        attention_mask = attention_mask[:MAX_LENGTH]
        labels = labels[:MAX_LENGTH]
    return { 
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }

tokenized_ds = ds.map(process_func, remove_columns=ds.column_names)
tokenized_ds

Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 48818
})

tokenizer.decode(tokenized_ds[2]["input_ids"])

'Human: 描述原子的结构。\n\nAssistant: 原子是物质的基本单位，它由三种基本粒子组成：质子、中子和电子。质子和中子形成原子核，位于原子中心，核外的电子围绕着原子核运动。\n\n原子结构具有层次性。原子核中，质子带正电，中子不带电（中性）。原子核非常小且致密，占据了原子总质量的绝大部分。电子带负电，通常围绕核运动，形成若干层次，称为壳层或电子层。电子数量与质子数量相等，使原子呈电中性。\n\n电子在每个壳层中都呈规律分布，并且不同壳层所能容纳的电子数也不同。在最里面的壳层一般只能容纳2个电子，其次一层最多可容纳8个电子，再往外的壳层可容纳的电子数逐层递增。\n\n原子核主要受到两种相互作用力的影响：强力和电磁力。强力的作用范围非常小，主要限制在原子核内，具有极强的吸引作用，使核子（质子和中子）紧密结合在一起。电磁力的作用范围较大，主要通过核外的电子与原子核相互作用，发挥作用。\n\n这就是原子的'

tokenizer.decode(list(filter(lambda x: x!=-100, tokenized_ds[2]["labels"])))

'原子是物质的基本单位，它由三种基本粒子组成：质子、中子和电子。质子和中子形成原子核，位于原子中心，核外的电子围绕着原子核运动。\n\n原子结构具有层次性。原子核中，质子带正电，中子不带电（中性）。原子核非常小且致密，占据了原子总质量的绝大部分。电子带负电，通常围绕核运动，形成若干层次，称为壳层或电子层。电子数量与质子数量相等，使原子呈电中性。\n\n电子在每个壳层中都呈规律分布，并且不同壳层所能容纳的电子数也不同。在最里面的壳层一般只能容纳2个电子，其次一层最多可容纳8个电子，再往外的壳层可容纳的电子数逐层递增。\n\n原子核主要受到两种相互作用力的影响：强力和电磁力。强力的作用范围非常小，主要限制在原子核内，具有极强的吸引作用，使核子（质子和中子）紧密结合在一起。电磁力的作用范围较大，主要通过核外的电子与原子核相互作用，发挥作用。\n\n这就是原子的'

len(tokenized_ds[2]["input_ids"])

len(tokenized_ds[2]["labels"])

Step4 模型创建

model = AutoModelForCausalLM.from_pretrained("Langboat/bloom-1b4-zh", low_cpu_mem_usage=True)

model.device

device(type='cpu')

model

BloomForCausalLM(
  (transformer): BloomModel(
    (word_embeddings): Embedding(46145, 2048)
    (word_embeddings_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
    (h): ModuleList(
      (0-23): 24 x BloomBlock(
        (input_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
        (self_attention): BloomAttention(
          (query_key_value): Linear(in_features=2048, out_features=6144, bias=True)
          (dense): Linear(in_features=2048, out_features=2048, bias=True)
          (attention_dropout): Dropout(p=0.0, inplace=False)
        )
        (post_attention_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
        (mlp): BloomMLP(
          (dense_h_to_4h): Linear(in_features=2048, out_features=8192, bias=True)
          (gelu_impl): BloomGelu()
          (dense_4h_to_h): Linear(in_features=8192, out_features=2048, bias=True)
        )
      )
    )
    (ln_f): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=2048, out_features=46145, bias=False)
)

sum(param.numel() for param in model.parameters())

1303111680

IA3

PEFT Step1 配置文件

import peft
peft.__version__

'0.18.1'

# conda install peft --channel conda-forge
from peft import IA3Config, get_peft_model, TaskType

config = IA3Config(task_type=TaskType.CAUSAL_LM)
config

IA3Config(task_type=<TaskType.CAUSAL_LM: 'CAUSAL_LM'>, peft_type=<PeftType.IA3: 'IA3'>, auto_mapping=None, peft_version='0.18.1', base_model_name_or_path=None, revision=None, inference_mode=False, target_modules=None, exclude_modules=None, feedforward_modules=None, fan_in_fan_out=False, modules_to_save=None, init_ia3_weights=True)

PEFT Step2 创建模型

peft_model = get_peft_model(model, config)
peft_model

PeftModelForCausalLM(
  (base_model): IA3Model(
    (model): BloomForCausalLM(
      (transformer): BloomModel(
        (word_embeddings): Embedding(46145, 2048)
        (word_embeddings_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
        (h): ModuleList(
          (0-23): 24 x BloomBlock(
            (input_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
            (self_attention): BloomAttention(
              (query_key_value): Linear(
                (base_layer): Linear(in_features=2048, out_features=6144, bias=True)
                (ia3_l): ParameterDict(  (default): Parameter containing: [torch.FloatTensor of size 6144x1])
              )
              (dense): Linear(in_features=2048, out_features=2048, bias=True)
              (attention_dropout): Dropout(p=0.0, inplace=False)
            )
            (post_attention_layernorm): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
            (mlp): BloomMLP(
              (dense_h_to_4h): Linear(in_features=2048, out_features=8192, bias=True)
              (gelu_impl): BloomGelu()
              (dense_4h_to_h): Linear(
                (base_layer): Linear(in_features=8192, out_features=2048, bias=True)
                (ia3_l): ParameterDict(  (default): Parameter containing: [torch.FloatTensor of size 1x8192])
              )
            )
          )
        )
        (ln_f): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)
      )
      (lm_head): Linear(in_features=2048, out_features=46145, bias=False)
    )
  )
)

config

IA3Config(task_type=<TaskType.CAUSAL_LM: 'CAUSAL_LM'>, peft_type=<PeftType.IA3: 'IA3'>, auto_mapping=None, peft_version='0.18.1', base_model_name_or_path='Langboat/bloom-1b4-zh', revision=None, inference_mode=False, target_modules={'query_key_value', 'mlp.dense_4h_to_h'}, exclude_modules=None, feedforward_modules={'mlp.dense_4h_to_h'}, fan_in_fan_out=False, modules_to_save=None, init_ia3_weights=True)

peft_model.print_trainable_parameters()

trainable params: 344,064 || all params: 1,303,455,744 || trainable%: 0.0264

Step5 配置训练参数

args = TrainingArguments(
    output_dir="./chatbot", # 输出文件夹存储模型的预测结果和模型文件checkpoints
    per_device_train_batch_size=1, # 默认8, 对于训练的时候每个 GPU核或者CPU 上面对应的一个批次的样本数
    gradient_accumulation_steps=8, # 默认1, 在执行反向传播/更新参数之前, 对应梯度计算累积了多少次
    logging_steps=10, # 每隔10迭代落地一次日志
    num_train_epochs=1, # 整体上数据集让模型学习多少遍
    learning_rate=3e-3
)

Step6 创建训练器

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_ds,
    # 构建一个个批次数据所需要的
    data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer, padding=True)
)