多语言文本表征模型 jina-embeddings-v3
在MTEB基准测试中,jina-embeddings-v3在英语任务上优于OpenAI和Cohere的最新嵌入模型,在多语言任务上优于multilingual-e5-large-instruct。此外,通过合成数据和偏好学习数据集的训练,模型在缓解检索失败案例方面也取得了显著进展。jina-embeddings-v3在多语言和长上下文检索任务中表现出色,且参数规模适中,适合实际应用和边缘计算。未来
·
简介
jina-embeddings-v3,这是一个具有5.7亿参数的多语言文本嵌入模型,专为多语言数据和长上下文检索任务设计,支持最多8192个标记的上下文长度。该模型包含一系列任务特定的低秩适应(LoRA)适配器,能够生成高质量的嵌入用于查询-文档检索、聚类、分类和文本匹配。
背景与意义
文本嵌入模型将文档表示为高维向量,将文档的语义关系转化为向量空间中的距离关系,是神经信息检索的基础。然而,传统嵌入模型通常需要针对特定任务进行微调,且在处理长文本和多语言任务时存在局限性。jina-embeddings-v3旨在通过使用任务特定的LoRA适配器和最新的技术改进,如Matryoshka表示学习,来解决这些问题。
模型架构
jina-embeddings-v3基于XLM-RoBERTa模型进行修改,以实现以下目标:
有效编码长文本序列:通过替换绝对位置嵌入为旋转位置嵌入(RoPE),模型能够处理更长的文本序列。
任务特定嵌入编码:引入任务特定的LoRA适配器,以优化不同任务的嵌入质量。
提高模型效率:使用FlashAttention 2、支持激活检查点和DeepSpeed框架进行高效分布式训练。
训练方法
模型的训练分为三个阶段:
预训练:使用大规模多语言文本语料进行标准的掩码语言建模(MLM)训练,初始化模型权重。
嵌入任务微调:通过添加均值池化层,将文本序列编码为单个向量表示,并在语义相关文本对上进行训练。
任务特定适配器训练:为四种不同的任务训练五个LoRA适配器,使用专用数据集和任务特定损失函数。
性能评估
在MTEB基准测试中,jina-embeddings-v3在英语任务上优于OpenAI和Cohere的最新嵌入模型,在多语言任务上优于multilingual-e5-large-instruct。模型在长文档检索任务中也表现出色,得益于RoPE位置嵌入的有效性。此外,通过合成数据和偏好学习数据集的训练,模型在缓解检索失败案例方面也取得了显著进展。
关键创新点
任务特定优化与LoRA:使用LoRA适配器生成任务特定嵌入,相比指令微调方法更高效,且能显著提升性能。
合成数据与失败案例缓解:通过分析常见检索失败案例并引入合成训练数据,提高模型在边缘情况下的鲁棒性。
最新技术集成:结合Matryoshka表示学习、指令微调和长上下文检索等技术,提升模型的灵活性和性能。
结论与展望
jina-embeddings-v3在多语言和长上下文检索任务中表现出色,且参数规模适中,适合实际应用和边缘计算。未来工作将关注低资源语言的性能提升和系统性失败原因分析,进一步增强模型在多语言任务中的能力。
技术要点
更多推荐
所有评论(0)