Lesson 1  大模型认知和思维引入

编排原则:把AI当人看

大模型本质:文字→token→embedding

1、函数→神经网络

激活函数 N套 线性函数→非线性函数(神似神经网络) 求出W b

2、计算神经网络的参数

数学言语表达

拟合度:当前函数与真实数据的相差程度

损失函数L:真实数据与预测数据误差的函数

目标:求出让L最小的w b

梯度下降:通过让L不断变小(梯度慢慢下降)的找出一组合适的参数 w b

链式法则:起始变量,经过N轮偏导数后求出终值的原理

控制变换快慢:学习率

3、调教神经网络的方法

过拟合:在样本数据拟合完美,不预测/不适配未知数据(泛化能力)

Robustness鲁棒性plus:避免模型因为输入的小变化对结果产生很大的波动

抑制过拟合--通过加入惩罚项(添加权重)+损失函数→新损失函数

辛顿Dropout:减少关键参数对模型能力的绑定

4、矩阵→CNN(卷积神经网络,处理静态数据)

加减乘除 进化→ 矩阵运算→GPU最爱的并行计算特性

图像处理:预设卷积核 原图像矩阵乘积变换

卷积运算代替FC的标准矩阵乘法→大减参数量;提取图像的局部特征

神经网络中的卷积核未知!

5、Word embedding→RNN(循环神经网络,处理动态数据)

自然语言 编码 成为数字(计算机语言)

词向量本质:自然语言的相关性转换为可以用数学公式计算出来

维度适中:词嵌入→词向量(词之间相关性, 每个位置的数值是训练赋予的)

词向量位置关系:点积   余弦相似度

循环:输入向量拼接一个隐藏状态h,权重矩阵增加Whh

循环比经典神经网络多一个隐藏状态

6、简单好用的transformer(Attention is all u need)

Attention:词向量与位置信息的乘积的矩阵(新词向量)包含了位置信息和其他词上下文信息

Muti-head attention:每组QKV进行注意力层运算 增加上下文信息 本质就是矩阵相乘再相加

Add&Norm:残差网络和归一化处理,解决梯度消失和让分布更加稳定

解码器:输出前经过一层线性变换的神经网络,投射到词表向量中,最后用softmax层转化为概率

调整:训练出现偏差时,计算损失函数→反向传播调整transformer结构中的权重矩阵

7、langchain搭建数据库

数据输入:企业内部数据库链接

数据清洗:数据分析和处理

算法:

  1. 文本分类模型
  2. 情感分析模型
  3. 主题建模

分析过程与步骤

  1. 准备阶段
  2. 选择适合算法
  3. 微调

分析引擎原理:

few小型算法和模型合作

输出结果

  1. 图表类
  2. 文字报告
  3. 互动界面

Lesson 2  从提示工程到RAG:构建大模型的知识与交互基础

核心思想

  1. 提示词:应用层的技术,本质上是为了搭建一条实用的Prompt
  2. RAG:最流行技术及最大的坑
  3. RAG的高级思维:双向奔赴

认知如一

Prompt是我们唯一可以和模型交互的方式

Prompt提效:样例,数量分类:zero-shot  one-shot  few-shot

SAMPLES:

Prompt Sony店员few-shot

RAG企业行政/人事/财务等制度问答

RAG骑手招聘

RAG答疑助手--coze神仙体验

Query  AI改写成SQL实现检索普通数据库

query改写(Agentic RAG:规划总结query步骤)

Coze入门体验

CASE 1 :Coze平台操作的学员问题

爬虫抓取页面文字--文档和子集很全面--query和文档都是数据向量,检索相似度不够高--文档整理成(AI根据content生成典型的questions)一一对照--query与questions数据向量相似度检索

CASE 2:微信群问答

学员提问——扩写成10种不同表述(技巧--翻译模型:中文翻译成多种语言再翻回中文)——

CASE 3:视频

文字和语音为主(音频转文字,纯文字文件5万字以上--切片技巧:AI

初步分析:

每个知识点大概多少字讲完,因为选型Embedding字数限制不一样

第一个1000字/chunking--丢给LLM+写好的prompt,判断1000字可以分成几个主题

,假设第683字是第一个主题结束--第一个chunk/content;

第二个1000字:第684-1683,判断1000字可以分成几个主题——第二个chunk)

无声电影:画面,无对话(多模态模型实现每个视频片段撰写文字解说)

Prompt动态提示词:

知识库Embedding(embedding+encode) 800-1000维左右

LLM Embedding 8000-10000维左右

Lesson3 Agent:从可控性到自主反思

Agent认知框架

应用场景:项目管理/多步决策

Plan-and-execute

Self-askz

1、Workflow Agent

Q:到底给LLM多大的自由空间

1、LLM会有幻觉

2、LLM只会说,不会做

3、LLM规划的步骤不靠谱

有些任务就是需要极强的准确度、可控性,怎么办?

A:模型提供智能,Agent保证结果

1、用RAG技术构建私有知识库,提升对话能力

2、用设计者定义好的Workflow完成特定任务

3、过程中使用工具完成LLM无法完成的任务

4、让LLM写代码,完成数据处理、数学计算

2、React Agent

Thought → Action → Observation → Answer

Q:有些任务无法提前设定步骤怎么办?

比如:我有份文件里记录了上个月最终的业务数据,找找是哪份文件比如:检查一下直播系统,我的直播间学员们说很卡,但是网络测速是正常的比如:听说明天台风,我明天从深圳飞北京,能正常起飞么?

A:ReAct: Reasoning + Acting推理、行动、获得反馈

根据反馈再次推理、行动、再次获取反馈

使用了ReAct技术的AI产品

AutoGPTPerplexity

Manus

Cursor

GenSpark

Action\Tools由工程师编码或提供工具

优秀网站

法律工作者:Harvey.ai

企业知识库:Glean

Lesson4多模态前沿:从Agent构建到视频AIGC

1、视觉和语言的打通

如何打通一个模型,能同时看懂语言和视觉

图生文:图片存储在只能接受文字的知识库之前,先图转文

进阶能力能输出文字,也能输出图片、视频

文生图:这是一只安哥拉猫,背上是安静的马耳他蓝,从喉咙到足尖的胸腹部是一片纯净、光滑如貂的白色皮毛,精致的脑袋有贵族气质,神情透出智慧,动作优雅像一只年轻的豹子。

实际用视觉转译、融合推理、视觉编辑

融合推理:读懂文、图==>推导答案

  1. 视觉识别与视觉推理

传统视觉识别模型vs多模态模型

传统视觉识别模型:Yolo、UNet

Yolo:目标物体的识别

视觉识别:分出员工与顾问

动作分析:每个员工做出多少杯咖啡,必须借助多模态

UNet:具体区域的分割

像素识别:1024✖768

左例子,右测评

总结:

Yolo、UNet

应用硬伤,泛化性太低:训练模型采用的图库之外新图片识别精度骤降

优势:模型小、部署和使用成本低、识别精度高

劣势:需要单独标注数据、训练模型

多模态模型

Gemini、 GPT、Qwen VL、豆包 Seed

优势:无需标注、无需训练、直接使用、有推理能力

劣势:部署和使用成本较高,精度中等

  1. 视觉生成

停留在使用层面/模型能力不足:

只是写提示词给模型,生成的视频无法满足需求

1、海报生成

2、漫剧视频

3、电商视频

从Agent构建到视频AIGC

多模态Agent:品牌视频切片、产品展示切片、模特展示切片、直播切片,根据片库推理 重组新视频,必须用到LLM

操作流程:多模态每个步骤的成果材料转为文字==>LLM学习和创新生成==>新素材

1、Al+人工切片,1-10秒视频

2、通过代码或工具,将视频中的音频分离

3、从音频中提取文字

4、通过多模态模型对画面进行文字描述

5、人工补充修改文字描述

6、整理成结构化信息

商业实际情况:

大量商家95%以上的商品没有拍过模特展示视频

1、文生视频,可控性普遍还不够

2、图生视频,生成几秒钟的展示视频,效果是可用的

N种大小颗粒度差别的模板,保障商品图真实感

梳理和标注所有的商品图,模特图

1、上衣内容类别:连衣裙、T恤、衬衫、外套、针织衫、风衣、西服、卫衣、马夹、大衣、皮衣、皮草、毛衣、羽绒服等等

2、上衣款式:贴身款、修身款、合身款、宽松款、超宽松款

3、上衣长度:超短款、短款、常规款、中长款、长款、超长款

4、上衣袖子:长袖、半袖、短袖、无袖

5、下衣内容类别:连衣裙、半身裙、休闲裤、牛仔裤、短裤、直筒裤、工装裤、西裤、运动裤等等6、下衣款式:紧身款、修身款、合身款、宽松款、超宽松款

7、下衣长度:拖地、长、7分、膝盖、短、超短

商业案例:Fancy Tech千人千面内容制作内容精准触达

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐