RuntimeError: unsupported output type: int, from operator: xformers::efficient_attention_forward

模型转trace时，报错, 排查原因是在模型内部使用了, 更换了几个版本的xformer都没搞定，最后通过替换这个方法绕过了这个问题，虽然显存会增加一些，但是起码能把模型转trace成功。

贰の⑩次方

609人浏览 · 2025-01-08 00:25:37

贰の⑩次方 · 2025-01-08 00:25:37 发布

背景：

模型转trace时，报错RuntimeError: unsupported output type: int, from operator: xformers::efficient_attention_forward, 排查原因是在模型内部使用了xformers.ops.memory_efficient_attention(), 更换了几个版本的xformer都没搞定，最后通过替换这个方法绕过了这个问题，虽然显存会增加一些，但是起码能把模型转trace成功

解决办法：

将xformers.ops.memory_efficient_attention()替换为如下方法

import torch.nn.functional as F

def memory_efficient_attention_pytorch(query, key, value, attn_bias=None, p=0., scale=None):
    # query     [batch, seq_len, n_head, head_dim]
    # key       [batch, seq_len, n_head, head_dim]
    # value     [batch, seq_len, n_head, head_dim]
    # attn_bias [batch, n_head, seq_len, seq_len]

    if scale is None:
        scale = 1 / query.shape[-1] ** 0.5
    
    # BLHC -> BHLC
    query = query.transpose(1, 2)
    key = key.transpose(1, 2)
    value = value.transpose(1, 2)

    query = query * scale
    # BHLC @ BHCL -> BHLL
    attn = query @ key.transpose(-2, -1)
    if attn_bias is not None:
        attn = attn + attn_bias
    attn = attn.softmax(-1)
    attn = F.dropout(attn, p)
    # BHLL @ BHLC -> BHLC
    out = attn @ value
    # BHLC -> BLHC
    out = out.transpose(1, 2)
    return out

参考链接：

memory_efficient_attention_pytorch
官方bug链接

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【收藏必备】零基础理解大模型：Prompt、上下文、RAG三大核心概念精讲

2048 AI社区

【车间调度】基于非支配排序遗传算法NSGAII的柔性作业车间调度问题研究（Matlab代码实现）

柔性作业车间调度问题（Flexible Job Shop Scheduling Problem, FJSP）是传统作业车间调度问题的拓展，具有更高的复杂性和灵活性。NSGA-II作为一种有效的多目标优化算法，在解决FJSP方面展现出强大的能力。本文详细探讨了NSGA-II在FJSP中的应用，包括算法原理、染色体编码、交叉变异操作、实验设计与结果分析等，旨在为实际生产调度提供有效的解决方案。