Q9:大模型的分词器和传统的中文分词有什么区别?对于一个指定的词表,一句话是不是只有一种唯一的分词方式?

传统的中文分词,是根据语法和语义规则,将连续的汉字序列切分成有意义的、独立的词汇单位。

使用字典匹配、统计模型、深度学习等方法,严重依赖预定义的词典和人工标注的分词语料

大模型分词将文本高效、无歧义地转换为模型可处理的数字ID。不关心切分出的单元是否是一个词,只关心它是否是数据中常见的、有统计意义的子词单元。

主要使用WordPiece、 Unigram、字节对编码等子词切分算法,从训练语料中自动学习一个词表,不依赖人工词典

Q10:为什么传统BM25检索对中文分词的质量很敏感,而大模型对分词器的选取不敏感?

BM25是一种用来计算搜索关键词和文档之间相关性的算法。它帮搜索引擎在海量文档中,快速找出并排序那些最相关的文档。

它的成功严重依赖于一个基本假设:如果关键词与文档是相关的,那么它们应该包含一些相同的、重要的词。

而大模型对分词器的选取不敏感:

1)大模型不是通过表面的字符串匹配来判断相关性,而是通过深层的语义表示

模型的注意力机制会同时关注输入序列中的所有Token,并为其生成一个融合了上下文的向量表示。

2)大模型的分词器本身就是子词级别的,本身就降低了OOV问题(Out-Of-Vocabulary,即未登录词问题)

3)大模型拥有数十亿甚至万亿的参数,并在海量数据上进行了训练。在这个过程中,它已经见识过同一个概念被以多种不同的分词方式呈现的情况。

因此,它对分词的一些细微变化不那么敏感,因为它有强大的能力进行内部校准和语义消歧。

Q11:GPT-4、Llama等现代大模型采用的字节级BPE分词器相比传统的BPE分词器有什么优点?

传统的的BPE分词器,通常在字符级别或预处理后的单词级别上运行。它有一个核心问题:它只能处理训练时见过的字符

对于训练语料中未出现过的字符、表情符号、其他语言的文字或任何新的符号,它完全无法处理。

另外,传统BPE在处理多语言混合文本时,词表分配会非常不均衡。高频语言(如英语)会占据大量词表空间,而低频语言的字符可能因为出现次数少而无法形成有效的子词。

字节级BPE的核心优点:

1)任何可以用UTF-8编码的文本字节级BPE分词器都能处理,实现真正的“零OOV”

2)字节级BPE在语言在起点上都是平等的,模型可以更公平地在不同语言间共享字节级的子词单元。

Q12:国内预训练的大模型与海外模型相比,是如何做到用相对更少的词元表达中文语料的?

通过以下三个方向:
1)词表优化:扩充中文字符与子词;尝试利用汉字本身的字形和部首信息,构建更细粒度的词表
2)创新与改进分词算法:采用字节级BPE
3)注重中文训练数据与策略:采用大规模中文预训练

Q13:大模型是如何区分聊天历史中用户说的话和AI说的话的?

在大模型训练过程中,它被喂入了大量带有特定格式的对话数据,这些数据通常包含明确的角色标识。因此,模型学会了一种模式:当输入文本以某种特定结构呈现时,它就应该以对应的角色身份来回应。

例如OpenAI的通用格式如下:

  • system:设定AI的助手角色和背景、行为准则。这是对话的“初始设定”。
  • user:代表用户说的话。
  • assistant:代表AI模型之前的历史回复。

Q14:大模型做工具调用的时候,输出的工具调用参数是如何与文本回复区分开来的?

1)结构化输出格式:最常用的方法,模型被训练成输出特定的结构化格式。
2)特殊标记分隔:使用明确的开始和结束标记来标识工具调用部分
3)基于训练的策略:在训练阶段通过特定的格式教导模型,在输入阶段包含工具描述和用户问题,在输出阶段要求遵循特定格式区分文本和工具调用

Q15:使用什么数据作为“句子”的等价物?如何将用户行为融入嵌入模型?

在自然语言处理中,一个“句子”是一个有序的单词序列,它表达了一个连贯的语义概念

要将这个思想迁移到其他领域,我们需要找到一种结构上类似“句子”的数据单元。这个数据单元应该由一系列离散的“事件”或“物品” 按时间顺序或逻辑顺序排列而成

为什么序列这么重要?

  • 上下文信息:就像句子中“国王”和“王后”经常出现在相似语境中一样,商品“手机”和“手机壳”也经常在同一个购物会话中出现。模型能学到这种共现关系。
  • 顺序信息:顺序蕴含了偏好和意图的演变。用户先看相机再看镜头,与先看镜头再看相机,可能代表了不同的意图强度或知识水平。

有了“句子”,就可以用各种模型来学习嵌入。融入用户行为的方式主要有以下几种策略,从简单到复杂:

策略一:直接学习物品嵌入

  • 如何融入行为
    1)将每个用户的行为序列(如上文的“句子”)作为训练样本。
    2)模型的目标是:给定序列中的一个目标物品,预测其上下文物品
  • 结果:通过这种方式,模型学习到的物品嵌入向量,天然就编码了所有用户群体的集体行为模式。
  • 优点:简单高效
  • 缺点:无法体现个性化

策略二:学习用户和物品的联合嵌入

  • • 如何融入行为:
    1)用户模型:输入是用户的特征,如历史交互物品的ID、人口统计学信息等。输出是用户嵌入向量。
    2)物品模型:输入是物品的特征,如物品ID、类别、标签等。输出是物品嵌入向量。
    3)训练目标:让正样本(用户实际交互过的物品)的用户向量和物品向量在向量空间中的点积(或余弦相似度)尽可能大;让负样本(用户未交互过的物品)的点积尽可能小。
  • 结果:模型同时学到了用户的兴趣嵌入和物品的属性嵌入。推荐时,只需计算目标用户向量与所有候选物品向量的相似度,取最高的即可。
  • 优点:实现了真正的个性化推荐
  • 缺点:需要明确的负样本,且对于新用户(冷启动)问题较大。

策略三:使用序列模型动态捕捉用户兴趣

  • 如何融入行为
    1)将用户的行为序列(按时间排序)直接输入模型中
    2)模型的最终隐藏状态,或者最后一个位置的输出,就代表了这个用户当前的兴趣状态向量。
    3)训练目标通常是预测用户下一个会交互的物品
  • 结果:用户嵌入不再是固定的,而是根据其最近的行为历史动态生成的。它能更好地反映用户的即时意图。
  • 优点:能捕捉兴趣的动态变化和长期依赖关系,非常适合会话式推荐。
  • 缺点: 计算成本更高,需要更长的序列数据。

策略四:通过对比学习利用更丰富的行为信号

  • 数据增强:从一个用户序列中,通过掩码、裁剪、重排等方式创建两个不同的样本序列,这两个被增强的序列称为一个正样本对
  • 训练目标:通过编码器(如Transformer)将这两个序列映射为两个向量,然后通过一个对比损失函数,让正样本对的向量相互靠近,而与其他用户序列的向量(负样本)相互远离。
  • 结果:模型学会了如何忽略噪声和无关行为,提取出用户序列中最核心、最稳定的兴趣表示。它非常擅长利用大量的无标签用户行为数据。
  • 优点:对数据噪声更鲁棒,能学习到非常高质量的嵌入
  • 缺点:模型设计和训练过程更复杂。

Q16:word2vec的训练过程中,负例的作用是什么?

1)提供对比信号,正例告诉模型哪些词应该相似,负例告诉模型哪些词应该不相似
2)降低计算成本。提供了好与坏的相对性,避免对所有像本进行筛查
3)构建有效训练目标,将多分类问题转化为二分类

Q17:传统的静态词嵌入(如word2vec)与大模型产生的与上下文相关的嵌入相比,有什么区别?有了与上下文相关的嵌入,静态词嵌入还有什么价值?

区别
1)无论上下文如何,静态词嵌入只有一个向量,而上下文相关嵌入根据上下文有不同的向量
2)上下文嵌入可以处理一词多义
3)静态词嵌入训练目标是预测相邻词语,而上下文嵌入旨在理解全局语义关系

尽管上下文嵌入更强大,但静态词嵌入在以下场景中仍有不可替代的价值
1)资源有限时候,尝试轻量级解决方案
2)特定领域专业化词语,专业领域术语关系更准确,歧义少
3)易于可视化与分析
4)作为大模型的补充输入,静态嵌入提供词汇级语义,上下文嵌入提供句子级语义

Q18:与上下文相关的嵌入是如何解决一词多义问题的,如技术语境下,英文token可能表示词元、代币、令牌?

与静态词向量不同,上下文嵌入是动态生成的。同一个词在不同的句子中,会产生完全不同的向量表示。

模型根据计算出的注意力权重,将所有上下文词的信息加权求和,并聚合在[token]的表示中。

经过多层Transformer的处理后,不同句子中的[token]向量中,不同的语义会被不断加强。

Q19:在word2vec等词嵌入空间中,存在king - man + woman ≈ queen的现象,这是为什么?大模型的词元嵌入空间是否也有类似的属性?

这个这个现象被称为“词汇类比”或“语义向量运算”。字面意思理解就是“国王减去男人加上女人等于王后”。

“国王” 的核心属性之一是“男性统治者”。所以,从“国王”的向量中减去“男人”的向量,在某种意义上是在剥离“男性”这个属性,得到一个关于“统治者”或“君主”的核心概念向量。

当我们把这个“统治者”的核心概念,再加上“女性”这个属性,自然就得到了“女性统治者”的概念,也就是“王后”。

以上内容之所以成立,是因为“国王”和“王后”出现的上下文非常相似(都与“皇室”、“统治”、“国家”等词共现)。它们的主要区别就在于性别,而“男人”和“女人”的向量恰好编码了这种性别差异。

Word2vec 的嵌入空间不仅编码了词语的相似性,还编码了词语之间多种多样的关系(如性别、动词时态、国家-首都等),这些关系可以被建模为向量空间中的线性平移。

大模型的词元嵌入空间也有类似的属性,但更复杂、更隐晦,并且通常不像 Word2vec 那样以纯粹的线性方式呈现。感兴趣的可以尝试自己和大模型对话尝试输入一下这些公式。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐