简介

jina-embeddings-v3,这是一个具有5.7亿参数的多语言文本嵌入模型,专为多语言数据和长上下文检索任务设计,支持最多8192个标记的上下文长度。该模型包含一系列任务特定的低秩适应(LoRA)适配器,能够生成高质量的嵌入用于查询-文档检索、聚类、分类和文本匹配。

背景与意义

文本嵌入模型将文档表示为高维向量,将文档的语义关系转化为向量空间中的距离关系,是神经信息检索的基础。然而,传统嵌入模型通常需要针对特定任务进行微调,且在处理长文本和多语言任务时存在局限性。jina-embeddings-v3旨在通过使用任务特定的LoRA适配器和最新的技术改进,如Matryoshka表示学习,来解决这些问题。

模型架构

jina-embeddings-v3基于XLM-RoBERTa模型进行修改,以实现以下目标:

有效编码长文本序列:通过替换绝对位置嵌入为旋转位置嵌入(RoPE),模型能够处理更长的文本序列。
任务特定嵌入编码:引入任务特定的LoRA适配器,以优化不同任务的嵌入质量。
提高模型效率:使用FlashAttention 2、支持激活检查点和DeepSpeed框架进行高效分布式训练。

训练方法

模型的训练分为三个阶段:

预训练:使用大规模多语言文本语料进行标准的掩码语言建模(MLM)训练,初始化模型权重。
嵌入任务微调:通过添加均值池化层,将文本序列编码为单个向量表示,并在语义相关文本对上进行训练。
任务特定适配器训练:为四种不同的任务训练五个LoRA适配器,使用专用数据集和任务特定损失函数。

性能评估

在MTEB基准测试中,jina-embeddings-v3在英语任务上优于OpenAI和Cohere的最新嵌入模型,在多语言任务上优于multilingual-e5-large-instruct。模型在长文档检索任务中也表现出色,得益于RoPE位置嵌入的有效性。此外,通过合成数据和偏好学习数据集的训练,模型在缓解检索失败案例方面也取得了显著进展。

关键创新点

任务特定优化与LoRA:使用LoRA适配器生成任务特定嵌入,相比指令微调方法更高效,且能显著提升性能。
合成数据与失败案例缓解:通过分析常见检索失败案例并引入合成训练数据,提高模型在边缘情况下的鲁棒性。
最新技术集成:结合Matryoshka表示学习、指令微调和长上下文检索等技术,提升模型的灵活性和性能。

结论与展望

jina-embeddings-v3在多语言和长上下文检索任务中表现出色,且参数规模适中,适合实际应用和边缘计算。未来工作将关注低资源语言的性能提升和系统性失败原因分析,进一步增强模型在多语言任务中的能力。

技术要点

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐