本文介绍了Embedding模型的工作原理,通过分布式假设将文本转化为向量,并解释了向量维度与语义特征的关系。文章重点讨论了Embedding模型的评估指标,如Recall@K和MRR,并说明了它们在不同场景下的适用性。此外,还介绍了MTEB排行榜作为参考,并列出了选型时需要考虑的因素,如任务性质、领域特性、多语言支持等,强调最合适的模型应契合业务需求与技术约束。


在使用向量数据库时,Embedding 模型选型至关重要,它直接决定了我们文本搜索的效果, 搜得准不准,找得全不全。但面对BGE、E5、OpenAI、千问等众多模型,到底该怎么选?

Embedding 的工作原理

Embedding直观理解起来很简单,简单来说就是把其它格式的数据转换为一串数字(向量)。其原理是基于语言学的分布式假设(Distributional Hypothesis)假设,分布式假设(Distributional Hypothesis)。最常见的例子就是苹果,在不同场景下可以代表手机或者水果,如果经常和iOS,APP一起出现,模型就会学到它指的是科技公司手机。如果经常和"红富士"“果园”“维生素"一起出现,模型就知道它指的是水果。Embedding 模型通过阅读海量文本,学习到了这种"上下文关系”,并把它编码成向量。

我们将一段文字转换成一个固定长度的数字列表,这里1024就是这个向量的维度,向量维度可以理解为描述事物的特征数量

猫在沙发上睡觉
[0.23, -1.45, 0.88, ..., 0.02]   共 1024 个数

没人能逐个解释每个数字的含义,它们是模型自己学到的抽象特征,但可以理解为,每个维度代表一种“语义特征”,比如:

第 1 维:是否涉及“动物”?

第 56 维:是否表达“安静”?

第 300 维:是否和“家具”相关?

第 1024 维:是否带有“温馨”情感?

这些维度不是人工定义的,而是模型在训练中自动学到的语义坐标轴。

Embedding模型评估指标

时序大模型其实是较为容易评估模型效果的,Embedding 模型的效果无法通过 “预测值 vs 真实值” 直观判断。

Embedding模型只是将文本等转化为向量,直观的对比二个模型向量化后的向量结果其实没有任何意义,针对不同的使用场景有不同的指标用来评估模型,在最常见的文本语义检索( Retrieval)场景我们可以用下面二个核心指标来评估模型的:

准确率指标 Recall@K : recall 指召回率, Recall@K 指Top-K 召回率,在所有真正相关的文档中,模型成功排在前K位的比例是多少,高 Recall意味着模型漏掉的结果很少

检索指标 MRR :Mean Reciprocal Rank平均倒数排名,它衡量的是正确答案在检索结果中的排名位置。MRR 关注第一个相关结果的位置,强调排名质量(ranking quality)。高 MRR意味着用户能很快看到正确答案,不需要在噪音中翻找。

我让AI总结了下这2个指标分别适合的场景:

指标 关注点 是否考虑排序 对“靠前相关”的敏感度 适合任务
Recall@K “找全了吗?” ❌ 不考虑 低(第1名和第K名一样) 异常检测、聚类
MRR@K “第一条对吗?” ✅ 考虑 高(越靠前得分越高) 搜索、问答、RAG

其他的评估指标还有很多,例如MAP、NDCG等, Embedding模型没有一个指标能够适合所有的场景,需要针对不同的任务类型去选用不同的指标来评估模型。

MTEB 排行榜

可以看到以上这2个指标,其实我们都不太容易用自己的数据集去评估,可直接参考HuggingFace 的 MTEB leaderboard,一站式的文本 Embedding 模型榜,我们可以了解每个模型的平均性能。

https://huggingface.co/spaces/mteb/leaderboard

例如阿里千问的Embedding模型还是得分很高的,之前看过的北航的BGE现在只能排到30多位了。MTEB还提供了基于不同语言的排行和不同领域的排行榜,例如医疗,法律和代码等。这篇文章更加详细介绍了METB的基准测试的榜单和相关的任务类型,也提到了针对不同类型任务使用哪些评估指标

其他的考量因素

在生产环境,我们还需要考虑很多其他因素,以我们自己为例,我们需要的是开源,支持本地部署和CPU的模型,这里我在AI的帮助下大致列了一些选型时候需要考虑的checklist:

因素 说明
任务性质 匹配任务需求(检索 / 问答 / 聚类 / 相似度匹配等),不同任务对向量质量、维度和速度要求不同
领域特性 通用领域(如新闻、对话)vs 专业领域(如日志、代码、医学、法律),专业领域优先选择领域微调模型
多语言支持 需处理中英混合、多语言日志 / 文本时,优先选择多语言预训练模型(如 BGE-M3、多语言 Sentence-BERT)
向量维度 权衡信息丰富度与计算成本:384/768 维兼顾效率与精度,1024+ 维语义更细但存储 / 检索成本更高
推理速度 单条 / 批量向量化耗时,CPU/GPU 环境下的吞吐量,日志场景需满足批量处理需求
资源占用 显存 / 内存占用,私有化部署时需匹配服务器硬件(如 CPU 环境优先选择轻量模型)
私有化能力 是否支持本地模型加载、离线推理,完全私有化场景必须选择开源可本地部署的模型

最合适的模型不一定是 benchmark 分最高的,而是最契合你业务实际需求与技术约束的模型。

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!
在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

在这里插入图片描述

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐