一. 认识模型

模型是一个从数据中学习规律的 “数学函数” 或 “程序”。旨在处理和生成信息的算法,通常模仿人类的认知功能。通过从大型数据集中学习模式和洞察,这些模型可以进行预测、生成文本、图像或其他输出,从而增强各个行业的各种应用。

在这里插入图片描述

可以简单理解为模型是一个 “超级加工厂”,这个工厂是经过特殊训练的,训练师给它看了海量的例子 (数据),并告诉它该怎么做。通过看这些例子,它自己摸索出了一套规则,学会了完成某个 “特定任务”。模型就是一套学到的 “规则” 或者 “模式”,它能根据你给的东西,产生你想要的东西。

最简单的比喻:给模型很多组数据。

在这里插入图片描述

模型的任务就是找出输入和输出之间的规律 (比如:输出是中间那个数),学成之后,当我们再输入 [8, 9, 10] 时,它能根据学到的规律预测出输出应该是 9

模型的关键特点在于:

  • 特定任务:一个模型通常只擅长用件事。
    • 一个模型专门识别图片是不是猫。
    • 一个模型专门预测明天会不会下雨。
    • 一个模型专门判断一条评论是好评还是差评。
  • 需要 “标注数据”:训练这种模型需要大量 “标准答案”。
    • 成千上万张已经标注好 “是猫” 或 “不是猫” 的图片。
  • 参数较少:参数是模型从数据中学到的 “知识要点” 或 “内部规则”。
    • 上述示例中的规则仅是 “中间数”,参数较少说明模型的复杂度和能力相对有限。

二. 认识大语言模型

1. 什么是大语言模型

大语言模型 (Large Language Model,LLM) 是指基于大规模神经网络 (参数规模通常达数十亿至万亿级别,例如GPT-3包含1750亿参数),通过自监督或半监督方式,对海量文本进行训练的语言模型。

  1. 神经网络:一个极其高效的 “团队工作流程” 或 “条件反射链”。

例如教一个小朋友识别猫:

  • 不会只给一条规则 (“有胡子就是猫”),因为兔子有胡子。
  • 我们会让他看很多猫的图片,它大脑里的视觉神经会协同工作。
    • 有的神经元负责识别 “尖耳朵”。
    • 有的负责识别 “胡须”。
    • 有的负责识别毛茸茸的 “尾巴”。
  • 这些神经元一层层地传递和组合信息,最后大脑综合判断 “这是猫”。

在这里插入图片描述

神经网络就是模仿大脑的这种工作方式。

  • 它由大量虚拟的 “神经元” (也就是参数) 和连接组成。
  • 每个神经元都像一个小处理单元,负责处理一点点信息。无数个神经元分成很多层,前一层的输出作为后一层的输入。
  • 通过海量数据的训练,这个网络会自己调整每个 “神经元” 的重要性 (即参数的值),最终形成一个非常复杂的 “判断流水线”。比如,一个识别猫的神经网络,某些参数可能专门负责识别猫的眼睛,另一些参数专门负责识别猫的轮廓。

简单说:神经网络就是一个通过数据训练出来的、由大量参数组成的复杂决策系统。

  1. 自监督学习:“完形填空” 超级大师。

例如我们想学会一门外语,但没有老师给出题和批改,怎么办?

  • 我们可以拿一本该语言的小说,自己玩完形填空:随机盖住一个词,然后根据上下文猜测这个词是什么。
  • 一开始猜得乱七八糟。
  • 但不断地重复这个过程,看了成千上万本书后,对这个语言的语法、词汇搭配、上下文逻辑了如指掌。现在不仅能轻松猜对被盖住的词,甚⾄能自己写出流畅的文章。

在这里插入图片描述
在这里插入图片描述

自监督学习就是这个过程。

  • 模型面对海量的、没有标签的原始文本 (互联网上的所有文章、网页)
  • 它自己给自己创造任务:把一句话中间的某个词遮住,然后尝试根据前后的词来预测这个被遮住的词。
  • 通过亿万次这样的练习,模型就深刻地学会了语言的规律。它不需要人类手动去给每句话标注 “这是主语”、“这是谓语”。

简单说:自监督就是让模型从数据本身找规律,自己给自己当⽼师。

  1. 半监督学习:“师父领进门,修行在个人”。

例如你想学做菜:

  • 师傅先教你几道招牌菜 (麻婆豆腐、宫保鸡丁),这相当于给了你一些 “有标注的数据” (菜谱和成品)
  • 然后,师傅让你去尝遍天下各种美食,自己研究其中的门道,这相当于接触海量的 “无标注数据” (各种未知的食材和味道)
  • 你结合师傅教的基本功和自己尝遍天下美食的经验,最终不仅能完美复刻招牌菜,还能创新出新的菜式,这就是 “半监督”。

在这里插入图片描述
在这里插入图片描述

先用少量带标签的数据让模型 “入门”,掌握一些基本规则,然后再让它去海量的无标签数据中自我学习和提升。这对于大语⾔模型来说也是一种常用的训练方式。

简单说:半监督就是 “少量指导+大量自学” 的结合模式。

  1. 语言模型:一个 “超级自动补全” 或 “语言预测器”。

例如你在用手机打字,输入 “今天天气真”,输入法会自动提示 “好”、“不错”、“冷” 等。这个输入法之所以能提示,就是因为它内部有一个小型的 “语言模型”,它根据你输入的前文,计算下一个词最可能是什么。

在这里插入图片描述

语言模型的核心任务就是预测下一个词。一个强大的语言模型,能够根据一段话,预测出最合理、最通顺的下一个词是什么,这样一个个词接下去,就能生成一整段话、一篇文章。

简单说:语言模型就是一个计算 “接下来最可能说什么” 的模型。

现在,我们再回头看那段描述,就一目了然了,翻译成大白话就是,大语言模型是一个:

  • 用 “超级团队工作流程” (大规模神经网络) 搭建的,拥有数百亿甚至上万亿个 “脑细胞” (参数) 的 “超级自动补全系统” (语言模型)
  • 它学习的方式,主要是通过自己玩 “海量完形填空” (自监督学习),或者 “少量名师指导+海量自学” (半监督学习)
  • 从互联网上所有的文本数据中学会了语⾔的规律。

因此,它具有以下几个核心特点:

  • 规模巨大:它的 “脑细胞” (参数) 特别多 (通常达到数十亿甚至万亿级别),所以思考问题更复杂、更全面,就像一支百万大军和一个小分队的区别。
  • 通用性强:它不是为单一任务训练的。因为它通过 “完形填空” 学会的是整个语言世界的底层规律 (语法、逻辑、知识关联),而不是只背会了 “猫的图片”。所以它能举一反三,把底层能力灵活应用到聊天、翻译、写代码等各种任务上。这种 “涌现” 能力,就像孩子通过大量阅读后,突然能写出意想不到的优美句子一样。
  • 训练方式不同:主要使用自监督学习,从海量无标注的原始文本中学习。它不依赖人工一张张地给图片标明 “这是猫”,而是直接从原始文本中自学,效率极高,规模可以做得非常大。
  • 交互方式革命:我们不用点按钮、写代码,直接像对人说话一样给它指令 (Prompt) 它就能听懂并执行,比如你直接说 “写一首关于春天的诗”,它就能给你写出来。

2. 主流的大语言模型

  • GPT-5 (OpenAI):支持 400k 背景信息长度,128k 最大输出标记,在多轮复杂推理、创意写作中表现突出。
  • DeepSeek R1 (深度求索):开源,专注于逻辑推理与数学求解,支持 128k 长上下文和多语言 (20+语言),在科技领域表现突出。
  • Qwen2.5-72B-Instruct (阿里巴巴):通义千问开源模型家族重要成员,擅长代码生成结构化数据 (如JSON) 处理角色扮演对话等,尤其适合企业级复杂任务,支持包括中文英文法语等29种语言。
  • Gemini 2.5 Pro (Google):多模态融合标杆,支持图像/代码/文本混合输入,适合跨模态任务 (如图文生成、技术文档解析)

Huggingface LLM 性能排行榜:https://huggingface.co/spaces/ArtificialAnalysis/LLM-Performance-Leaderboard

在这里插入图片描述

发展历程参考:https://segmentfault.com/a/1190000046532208

在这里插入图片描述

3. LLM 的能力包括哪些?

大模型,对不少人来说已变得耳熟能详,从大型科技公司到初创企业,都纷纷投身于这场技术变革。

AI 大模型不仅仅是技术圈的热门话题,它也正日新月异的速度⼊融入我们的日常生活,改变着我们获取信息、处理工作、甚至进行创作的方式。

我们将大模型的力归纳为四点,这不仅仅是技术指标,更是它改变世界的核心利器。

3.1 语言大师:理解与创造的革命

在这里插入图片描述

想象一下,你是否发生过以下类似问题:

  • 对学生:你是否为论文的开头绞尽脑汁?
  • 对职场人:一封礼貌又坚决的投诉邮件怎么写?

LLM 可以干什么?对于:

  • 论文的开头:告诉大模型你的主题和观点,它能为你⽣成几个不同风格的引言段落。例如:“写一篇关于《基于深度学习的晶粒度智能评级方法》的大学生论文开头供我参考”

在这里插入图片描述

  • 投诉邮件:把情况告诉它,它即刻生成,你稍作修改就能发送。例如:“帮我写一封礼貌又坚决的投诉邮件,事情的经过是:xxx”

在这里插入图片描述

我们发现,它真正 “读懂” 了人类语言的千变万化,并能进行高质量创作。这不是简单的关键词匹配,而是理解了上下文、情感甚至潜台词。

3.2 知识巨人:拥有 “全互联网” 的记忆

我们可以问它:“用物理学原理解释为什么猫咪总能四脚着地”。它不仅能回答,还能类比。

在这里插入图片描述

我们可以让它:“对比一下古希腊哲学和春秋战国百家争鸣的异同”。它能为我们提供清晰的思路。

在这里插入图片描述

可以看出,大模型是一个被压缩的、可对话的 “互联网知识库”。它通过学习海量数据,将知识内在关联,形成了一个立体的知识网络,而不仅仅是存储。

3.3 逻辑与代码巫师:从思维到实现的跨越

一个复杂的功能,对程序员来说,只需用中文描述:“写一个 Python 函数,能自动爬取某个网页的最新标题并保存到 Excel 里”。代码瞬间生成。

在这里插入图片描述

我们可以把一道复杂的数学题丢给它,如 “微分方程y”-3y’+2y=3x-2e^x的特解y*的形式为",它不仅能给出答案,还能一步步展示解题过程,成为你的私人家教。

在这里插入图片描述

可以看出,大模型不仅能处理语言,还能处理严格的逻辑和编程语法。这证明了它的能力超越了 “文科”,进入了需要精确和推理的 “理科” 领域。

3.4 多模态先知:开启 “全感知” AI 的大门

想象一下,上传一张照片,再加入一段描述,AI 可实现快速的对话式创意工作流程。

https://nanobanana.im/

  • AI 婴儿预测和生成:“生成他们的宝宝的样子 - 父母双方特征的融合。专业的照片质量”。

在这里插入图片描述

  • 3D 图形:“请把这张照片变成一个人物。在它后面,放置一个印有角色形象的盒子。在它旁边,添加一台计算机,其屏幕显示 Blender 建模过程。在盒子前面,为人偶添加一个圆形塑料底座,让它站在上面。底座的 PVC 材质应具有晶莹剔透、半透明的质感,并将整个场景设置在室内”。

在这里插入图片描述

可以看到,它打破 “文本” 的界限,连接视觉、听觉的世界,让 AI 更接近人类的感知方式。这是目前最前沿、最令人兴奋的能力,它让 AI 真正成为 “全能型” 助手。

4. 提示词编写技巧

编写合理且有效的提示词,是我们与 AI 进行有效对话的第一步,好的提示词能显著提升模型输出的质量和相关性。宗旨就是:将你的问题限定范围,让 AI 知道你要的答案具体要包含什么,提示词效果会大幅提升。

在这里插入图片描述

核心在于换位思考:想象 AI 对你提供的信息一无所知,你需要清晰、具体、无歧义地告诉它你要什么、在什么背景下、以什么方式呈现。善用示例、角色扮演、具体约束和迭代优化。

在这里插入图片描述

提示技巧不止一种,掌握多种技巧,并根据不同任务灵活组合使用,才是成为提示词高手的秘诀。

4.1 CO-STAR 结构化框架

在目标设定和问题解决的场景下,清晰性和结构性是至关重要的。而有一种方法论,在这些方面表现都非常出色,那就是 CO-STAR 框架。这个提示词编写框架,由新加坡政府技术局 (GovTech) 的数据科学与 AI 团队开发,重点在于确保提供给 LLM 的提示词是全面且结构良好的,从而生成更相关和准确的回答。

CO-STAR 可以拆解为六个维度。

在这里插入图片描述

例如,我需要进行健康咨询,希望给出营养建议。那么我可以这样构建提示词:

优化前 (模糊、低效):我该怎么吃才能更健康?

在这里插入图片描述

优化后 (清晰、有效):

  • 角色:你是一个基于科学证据的 AI 营养顾问。重要约束:你提供的所有建议都仅为通用信息,不能替代专业医疗诊断。在给出任何具体建议前,必须首先声明此免责条款。
  • 任务:基于以下用户信息,提供一份个性化的每日饮食原则性建议。
  • 用户信息:
    • 年龄:30岁
    • 性别:男性
    • 目标:减脂增肌
    • 日常活动水平:办公室久坐,每周进行3次力量训练
  • 回答要求:
  1. 首先,输出免责声明:“请注意:以下建议为通用健康信息…”
  2. 核心原则应围绕 “控制总热量摄入,确保充足蛋白质”
  3. 分别对早餐、午餐、晚餐和训练加餐提出各1条核心建议 (例如:早餐应包含优质蛋白和复合碳水)
  4. 推荐2种适合该用户的具体健康零⻝。
  5. 避免推荐任何具体的保健品或药物。
  • 输出格式:
    • 【免责声明】
    • 【核心原则】
    • 【分餐建议】
    • 【健康零食推荐】

在这里插入图片描述
在这里插入图片描述

4.2 少样本提示/多示例提示

这种方式通过给 AI 提供一两个 输入-输出 的例子,让它 “照葫芦画瓢”。

  • 核心思想:你不是在给它下指令,而是在 “教” 它你想要的格式、风格和逻辑。
  • 适用场景:格式固定、风格独特、逻辑复杂的任务,如风格仿写、数据提取、复杂格式生成。

例如:

优化前 (零样本提示):2@9等于多少?

在这里插入图片描述

优化后 (少样本提示):

根据以下示例,处理问题。

  • 示例1:2@3 = 5
  • 示例2:4@7 = 11

现在请分析这个:2@9 等于多少?

在这里插入图片描述

再例如:

优化前 (零样本提示):

请分析以下客户反馈,提取产品名称、情感倾向和具体问题。反馈:“我刚买的耳机,才用了一周左边就没声音了,太让人失望了”。

在这里插入图片描述

优化后 (少样本提示):

请根据以下示例,分析后续的客户反馈,并提取产品名称、情感倾向和具体问题。

示例1:

  • 反馈:“笔记本的电池续航太差了,完全达不到宣传的10小时,最多就4小时”。
  • 分析:
    • 产品名称:笔记本电池
    • 情感倾向:负面
    • 具体问题:续航远低于宣传

示例2:

  • 反馈:“客服响应很快,非常专业地帮我解决了软件激活问题,点赞!”
  • 分析:
    • 产品名称:客服服务
    • 情感倾向:正面
    • 具体问题:无

现在请分析这个:

  • 反馈:“我刚买的耳机,才用了一周左边就没声音了,太让人失望了”。

在这里插入图片描述

通过示例,AI 清晰地学会了 “产品名称” 如何概括,“情感倾向” 的标签是什么,“具体问题” 如何简洁描述。这比单纯用文字描述规则要有效得多。

4.3 思维链提示

提示工程的关键目标是让 AI 更好地理解复杂语义。这种能力的高低,可以直接通过模型处理复杂逻辑推理题的表现来检验。

可以这样理解:当好的提示词能帮助模型解决原本解决不了的难题时,就说明它确实提升了模型的推理水平。并且,提示词设计得越出色,这种提升效果就越显著。通过设置不同难度的推理测试,可以很清晰地验证这一点。

举个例子 (该示例来自论文:Large Language Models are Zero-Shot Reasoners):

在这里插入图片描述

  • 翻译一下问题:杂耍者可以杂耍16个球。其中一半的球是高尔夫球,其中一半的高尔夫球是蓝色的。请问总共有多少个蓝色高尔夫球?
  • 推理结果:8个蓝色高尔夫球。

可以看到,答案错误。该逻辑题的数学计算过程并不复杂,但却设计了一个语言陷阱,即一半的一半是多少。

现在是可以解决的,如下:

在这里插入图片描述

为了解决类似的逻辑问题,可以使用思维链提示。思维链提示相较于少样本提示是一种更好的提示方法,思维链提示最常用的两种方式:

  • Few-shot-CoT:少样本思维链。
  • Zero-shot-CoT:零样本思维链。

相比于少样本提示 (Few-shot),少样本思维链 (Few-shot-CoT) 的不同之处只是在于需要在提示样本中不仅给出问题的答案、还同时需要给出问题推导的过程 (即思维链),从而让模型学到思维链的推导过程,并将其应用到新的问题中。此技巧主要用于解决复杂推理问题,如数学、逻辑或多步骤规划。

  • 核心思想:要求 AI “展示其工作过程”,而不是直接给出最终答案。这模仿了人类解决问题时的思考方式。
  • 适用场景:数学题、逻辑推理、复杂决策、需要解释过程的任务。

例如,手动写一个思维链作为少样本提示的示例:

  • Q:“罗杰有五个网球,他又买了两盒网球,每盒有3个网球,请问他现在总共有多少个网球?”
  • A:“罗杰起初有五个网球,又买了两盒网球,每盒3个,所以,他总共买了2×3=6个网球,将起始的数量和购买的数量相加,可以得到他现在总共的网球数量:5+6=11,所以罗杰现在总共有11个网球”

在获得了一个思维链示例后,就可以以此作为样本进行 Few-shot-CoT 来解决第二个推理问题,如下所示:

示例1:

  • Q:“罗杰有五个网球,他又买了两盒网球,每盒有3个网球,请问他现在总共有多少个网球?”
  • A:“罗杰起初有五个网球,又买了两盒网球,每盒3个,所以,他总共买了2×3=6个网球,将起始的数量和购买的数量相加,可以得到他现在总共的网球数量:5+6=11,所以罗杰现在总共有11个网球”

问:“食堂总共有23个苹果,如果他们用掉20个苹果,然后又买了6个苹果,请问现在食堂总共有多少个苹果?”

结果如下:

在这里插入图片描述

通过这个例子可以观察到,这就好像是 “把答案告诉了AI”。从某种意义上说,是的,你告诉它的是 “回答这个问题的正确方式和步骤”,而不仅仅是最终的答案,AI 会模仿你提供的范本结构和逻辑,来解决新问题。

实际上,Few-shot-CoT 的方式虽然有效,但不一定是稳定且准确的。如果想要得到稳定的正确答案,需要更高阶的提示方法。你给的例子越详细,它模仿得就越像,这更像是一种 “教学” 或 “格式
化”。当你有一个非常复杂的逻辑流程,或者你希望 AI 严格按照某种格式 (比如先分析A,再对比B,最后总结C) 来输出时,就可以直接提供一个完美的 “思考过程” 作为范例。

4.4 自动推理与零样本链式思考

零样本思维链 (Zero-shot-CoT) 这是少样本思维链 (Few-shot-CoT) 的简化版。只需在提示词末尾加上一句魔法短语,即可激发 AI 的推理能力。

  • 核心思想:通过指令 “请一步步进行推理并得出结论”,强制 AI 在给出答案前先进行内部推理。
  • 适用场景:任何需要一点逻辑思考的问题,即使你不太清楚具体步骤。

例如:罗杰有五个网球,他又买了两盒网球,每盒有3个网球,请问他现在总共有多少个网球?请一步步进行推理并得出结论。

在这里插入图片描述

“一步步进行推理” 这个指令,相当于在引导模型的 “注意力机制”。它告诉模型:“在生成最终答案之前,请先在你的 “脑海” 里 (即生成的文本序列中) 模拟出一个缓慢、有序的推理上下文”。

当模型开始输出 “第一步…第⼆步…” 时,它实际上是在为自己创造一个更丰富、更逻辑化的上下文。它在这个自己创造的优质上下文中进行推理,最终得出的结论自然比在贫瘠的上下文中 (只有原始问题) 更准确。

根据《Large Language Models are Zero-Shot Reasoners》论文中的结论,从海量数据的测试结果来看,Few-shot-CoT 比 Zero-shot-CoT 准确率更高。

4.5 自我批判与迭代

要求 AI 在生成答案后,从特定角度对自己的答案进行审查和优化。

  • 核心思想:将 “生成” 和 “评审” 两个步骤分离,利用 AI 的批判性思维来提升内容质量。
  • 适用场景:代码审查、文案优化、论证强化、安全检查。

案例:编写一段代码后进行检查

优化前:写一个 Python 函数,计算列表中的最大值。

在这里插入图片描述

优化后:请执行以下两个步骤:

  • 步骤⼀:编写代码,写一个 Python 函数 find_max,用于计算一个数字列表中的最大值。
  • 步骤⼆:自我审查与优化,现在,请从代码健壮性和可读性的角度,审查你上面编写的代码。

在这里插入图片描述

请回答:

  1. 如果输入是空列表,函数会怎样?如何改进?
  2. 变量命名和代码结构是否清晰?能否让它更易于理解?
  3. 请根据你的审查,给出一个优化后的最终版本。

在这里插入图片描述

在实际应用中,这些技巧常常是组合使用的。例如,我们可以:

  1. 使用 CO-STAR 框架设定基本结构和角色。
  2. 在框架的 “Steps” 或 “Response” 部分,融入思维链指令。
  3. 对于格式复杂的输出,在最后附上少样本示例。
  4. 最后,要求 AI 进行自我审查。

我们更多使用 LLM 的场景大都是编写代码,如果用过 Cursor、Trae 这样的 AI IDE。应该不陌生在 AI 帮我们编码之前,需要配置相关的 “编码规则” --Rules。它其实就是这些 IDE 输入给 LLM 的提示词,告诉 LLM 编写代码时的注意事项与要求。

Cursor 官方提示词:https://cursor.directory/rules

在这里插入图片描述

实际上,在企业级项目中,不会只是简单的 Hello World 代码,而是包含了复杂业务的代码,直接使用提示词不一定是准确的。

在这里插入图片描述
在这里插入图片描述

5. 为什么 LLM 如此重要?

如果说前几年 AI 还是 “炫技” 的概念,那么大模型就是将 AI 变成一种基础资源,像电一样融入各行各业,驱动创新。

在这里插入图片描述

  • 生产力革命的 “加速器”

自动化所有基于语言和知识的⼯作:撰写、总结、翻译、编码、答疑……它将人类从重复性的脑力劳动中解放出来,让我们能更专注于创造、决策和战略思考。它的核心价值不是替代人类,而是增强人类 (Human Augmentation)

在这里插入图片描述

  • 人机交互的 “新范式”

从 “人适应机器” 到 “机器适应人”:我们不再需要学习复杂的软件菜单或编程语言,用最自然的 “说话” 方式,就能指挥机器完成任务。技术的使用门槛被极大地降低了。

在这里插入图片描述

  • 产业智能化的 “核心引擎”

赋能千行百业:

  1. 教育:提供一对一、无限耐心的 AI 家教。
  2. 医疗:辅助医生看影像资料、查阅最新文献病历。
  3. 法律:快速分析海量卷宗,提炼关键信息。
  4. 文创:提供无限的故事灵感、设计草图、配乐方案。

它正在成为和互联网、移动支付一样重要的数字化基础设施。

在这里插入图片描述

6. LLM 的接入方式

前面我们演示的都是通过现成的客户端,来进行 AI 行为,如聊天、生图等。如果现在要我们自己写一个 AI 应用来实现相关 AI 行为,则需要我们自行接入 LLM。

常见的原生 LLM (不经过第三方平台或复杂的代理层,直接与大语言模型提供方进行交互的方法) 接入方式有三种:【API 远程调用】、【开源模型本地部署】和【SDK 和官方客户端库】

在这里插入图片描述

6.1 API 接入

这是目前最主流、最便捷的接入方式,尤其适用于快速开发、集成到现有应用以及不想管理硬件资源的场景。

通过 HTTP 请求 (通常是 RESTful API) 直接调用模型提供商部署在云端的模型服务。代表厂商:OpenAI (GPT-4o)、Anthropic (Claude)、Google (Gemini)、百度文心一言,阿里通义千问,智谱 AI 等。

典型流程就是:

  1. 注册账号并获取 API Key:在模型提供商的平台上注册,获得用于身份验证的密钥。
  2. 查阅 API 文档:了解请求的端点、参数 (如模型名称、提示词、温度、最大生成长度等) 和返回的数据格式。
  3. 构建 HTTP 请求:在你的代码中,使用 HTTP 客户端库 (如 Python 的 requests) 构建一个包含 API Key (通常在 Header 中) 和请求体 (JSON 格式,包含你的提示和参数) 的请求。
  4. 发送请求并处理响应:将请求发送到提供商指定的 API 地址,然后解析返回的 JSON 数据,提取生成的文本。

以 deepseek 为例,官网地址:https://www.deepseek.com/

在这里插入图片描述

在这里插入图片描述

创建 API key 的名称和秘钥:

在这里插入图片描述
在这里插入图片描述

打开接口文档:

在这里插入图片描述
在这里插入图片描述

使用 Apifox 为例进行调用:https://apifox.com/

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可以通过接口调用:

curl https://api.deepseek.com/chat/completions \
	-H "Content-Type: application/json" \
	-H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \
	-d '{
			"model": "deepseek-chat",
			"messages": [
				{"role": "system", "content": "You are a helpful assistant."},
				{"role": "user", "content": "Hello!"}
			],
			"stream": false
		}'

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

以 OpenAI 为例,官网地址:https://platform.openai.com/

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可以通过接口调用:

curl https://api.openai.com/v1/responses \
	-H "Content-Type: application/json" \
	-H "Authorization: Bearer $OPENAI_API_KEY" \
	-d '{
		"model": "gpt-5.2",
		"input": "Write a short bedtime story about a unicorn."
	}'

在这里插入图片描述

在这里插入图片描述

调用需要开启系统代理:

在这里插入图片描述
在这里插入图片描述

6.2 本地接入

大模型本地部署,这种方式就是将开源的大型语言模型 (如 Llama、ChatGLM、Qwen 等) 部署在你自己的硬件环境 (本地服务器或私有云) 中。核心概念就是,将下载模型的文件 (权重和配置文件),使用专门的推理框架在本地服务器或 GPU 上加载并运行模型,然后通过类似 API 的方式进行交互。

典型流程是:

  1. 获取模型:从 Hugging Face (国外)、魔搭社区 (国内) 等平台下载开源模型的权重。
  2. 准备环境:配置具有足够显存 (如 NVIDIA GPU) 的服务器,安装必要的驱动和推理框架。
  3. 选择推理框架:使用专为生产环境设计的框架来部署模型,例如:
  • vLLM:特别注重高吞吐量的推理服务,性能极佳。
  • TGI:Hugging Face 推出的推理框架,功能全面。
  • Ollama:非常用户友好,可以一键拉取和运行模型,适合快速入门和本地开发。
  • LM Studio:提供图形化界面,让本地运行模型像使用软件一样简单。
  1. 启动服务并调用:框架会启动一个本地 API 服务器 (如 http://localhost:8000),你可以像调用云端 API 一样向这个本地地址发送请求。

以 Ollama 为例,下面演示具体过程。

6.2.1 下载并安装 Ollama

Ollama 是一款专为本地部署和运行大型语言模型 (LLM) 设计的开源工具,旨在简化大型语言模型 (LLM) 的安装、运行和管理。它支持多种开源模型 (如 qwen、deepseek、LLaMA),并提供简单的 API 接口,方便开发者调用,适合开发者和企业快速搭建私有化 AI 服务。

Ollama 官网:https://ollama.ai

  1. 下载 Ollama

在这里插入图片描述

  1. 安装 Ollama:下载完成之后,一步步安装即可。
  2. 验证:安装完成后,Ollama 默认会启动。

访问:http://127.0.0.1:11434

在这里插入图片描述

或者使用 cmd 访问 ollama --version

在这里插入图片描述

6.2.2 拉取模型

Ollama 可以管理和部署模型,我们使用之前,需要先拉取模型。

  • 修改模型存储路径:

模型默认安装在 C 盘个人目录下 C:\Users\XXX.ollama,可以修改 ollama 的模型存储路径,使得每次下载的模型都在指定的目录下。

有以下两种方式:

  1. 配置系统环境变量 (推荐)

在这里插入图片描述

  1. Ollama 界面来进行设置

在这里插入图片描述

设置完成后,重启 Ollama

  • 拉取模型

查找模型:https://ollama.com/search

在这里插入图片描述

以 DeepSeek-R1 为例,DeepSeek-R1 是一系列开放推理模型,其性能接近 O3 和 Gemini 2.5 Pro 等领先模型。DeepSeek-R1 有不同的版本,我们需要根据自己机器的配置及需求来选择相应的版本。

在这里插入图片描述
分为 1.5b,7b,8b 等,“b” 是 “Billion” (十亿) 的缩写,代表模型的参数量级。671b 表示 “满血” 版本,其他版本称为 “蒸馏” 版本。参数越多→模型 “知识量” 越大→处理复杂任务的能力越强,硬件需求也越高。

根据需求及电脑配置,选择合适的模型版本,以 1.5b 为例,下载完成之后,就会出现命令行,可以通过命令行和 AI 模型对话。

在这里插入图片描述

6.2.3 测试

模型拉取之后,可以通过命令行 ollama run deepseek-r1:1.5b 和 AI 模型对话。

在这里插入图片描述

对比下 1.5b 和 70b 的区别:

1.5b:

在这里插入图片描述

70b (测试机器:28核CPU 64G内存 44G显存,速度3-4token/s)

在这里插入图片描述

可以通过接口调用:

curl "http://127.0.0.1:11434/api/chat" \
	-d '{
		"model": "deepseek-r1:1.5b",
		"messages":[
			{"role": "user", "content": "夸夸我"}
		],
		"stream": false
	}'

在这里插入图片描述

6.3 SDK 接入

这并非一种独立的接入方式,而是对第一种 API 接入的封装和简化。模型提供商通常会发布官方编程语言 SDK,为我们封装好了底层的 HTTP 请求细节,提供一个更符合编程习惯的、语言特定的函数库。

典型流程 (以 OpenAI Python SDK 为例):

安装库:pip install openai

安装 OpenAI SDK 后,可以创建一个名为 test.py 的文件并将示例代码复制到其中:

在这里插入图片描述

相比直接构造 HTTP 请求,代码更简洁、更易读、更易维护。

6.4 问题与思考

对于以上三种接入方式,我们该如何选择?

  • 看数据敏感性:如果数据极其敏感,必须留在内部,本地部署是唯一选择。
  • 看技术实力和资源:如果团队没有强大的 MLops (机器学习运维) 能力,也没有预算购买和维护 GPU 服务器,云端 API 是更实际的选择。
  • 看成本和规模:如果应用规模很大,长期来看,本地部署的固定成本可能低于持续的 API 调用费用。反之,小规模应用 API 更划算。
  • 看定制需求:如果只是使用模型的通用能力,云端 API 足够。如果需要用自己的数据微调模型,则需要选择支持微调的 API 或直接本地部署。

实际上,只要是原生 LLM,无论怎么接图都有限制。为什么?

  1. 输入长度限制:所有 LLM 都有固定的输入长度 (如4K、8K、128K、400K Token)。我们无法将一本几百页的 PDF 或整个公司知识库直接塞给模型。

在这里插入图片描述

  1. 缺乏私有知识:模型的训练数据有截止日期,且不包含我们的私人数据 (如公司内部文档、个人笔记等)。让它基于这些知识回答问题,非常困难。

在这里插入图片描述

  1. 复杂任务处理能力弱:原生 API 本质是一个 “一问一答” 的接口。对于需要多个步骤的复杂任务 (如 “分析这份财报,总结要点,并生成一份 PPT 大纲”),我们需要自己编写复杂的逻辑来拆解任务、多次调用 API 并管理中间状态。
  2. 输出格式不可控:虽然可以通过提示词要求模型输出 JSON 或特定格式,但它仍可能产生格式错误或不合规的内容,需要我们自己编写后处理代码来校验和清洗。

像 LangChain 这样的框架,正是为了系统性地解决这些问题而诞生的。

三. 认识嵌入模型

1. 什么是嵌入模型?

大语言模型是生成式模型。它理解输入并生成新的文本 (回答问题、写文章)。它内部实际上也使用嵌入技术来理解输入,但最终目标是 “创造”。

而嵌入模型 (Embedding Model) 是表示型模型。它的目标不是生成文本,而是为输入的文本创建一个最佳的、富含语义的数值表示 (向量)。

由于计算机天生擅长处理数字,但不理解文字、图片的含义。嵌入 (Embedding) 的核心思想就是将人类世界的符号 (如单词、句子、产品、用户、图片) 转换为计算机能够理解的数值形式 (即向量,本质上是一个数字列表),并且要求这种转换能够保留原始符号的语义和关系。

在这里插入图片描述

我们可以把它想象成一个翻译过程,把人类语言 “翻译” 成计算机的 “数学语言”。

结论:由于文本经过嵌入式模型生成了向量,我们则可以通过数学来度量语义,既然是 “数学语言”,那么我们可以用数学的方式来比较向量,从而达到【度量语义】的目的!

2. 嵌入模型应用场景

根据嵌入的特性,由此延伸出了许多嵌入模型在 AI 应用的使用场景:

  • 语义搜索 (Semantic Search)

传统搜索:依赖关键词匹配 (搜 “苹果”,只能找到包含 “苹果” 这个词的文档)

语义搜索:则能将查询和文档都转换为向量,通过计算向量间的相似度来找到相关内容,即使文档中没有查询的确切词汇也能被检索到。如下图所示,即使知识库中并未直接出现 “笔记本电脑无法充电” 这个词组,语义搜索也能通过向量相似度精准地找到该文档。

在这里插入图片描述

  • 检索增强生成 (Retrieval-Augmented Generation、RAG)

这是当前大语言模型应用的核心模式。当用户向 LLM 提问时,系统首先使用嵌入模型在知识库 (如公司内部文档) 中进行语义搜索,找到最相关的内容,然后将这些内容和问题一起交给 LLM 来生成答案。这极大地提高了答案的准确性和时效性。

例如:一家公司的内部客服机器人接到员工提问:“我们今年新增加的带薪育儿假政策具体是怎样的?” 系统会首先使用嵌入模型在公司的最新人事制度文档、福利更新备忘录等资料中进行语义搜索,找到关于 “今年育儿假规定” 的具体条款,然后将这些【条款】和【问题】一起提交给 LLM,LLM 便能生成一个准确、具体的摘要回答,而非仅凭其内部训练数据可能产生的过时或泛泛的答案。

在这里插入图片描述

  • 推荐系统 (Recommendation Systems)

将用户 (根据其历史行为、偏好) 和物品 (商品、电影、新闻) 都转换为向量。喜欢相似物品的用户,其向量会接近;相似的物品,其向量也会接近。通过计算用户和物品向量的相似度,就可以进行精准推荐。例如:一个流媒体平台将用户 A (喜欢观看《盗梦空间》和《黑镜》) 和所有电影都表示为向量。系统发现用户 A 的向量与那些也喜欢《盗梦空间》和《黑镜》的用户向量很接近,而这些用户普遍还喜欢《星际穿越》。尽管用户 A 从未看过《星际穿越》,但通过计算用户向量与电影向量的相似度,系统会将这部电影推荐给用户 A。

  • 异常检测 (Anomaly Detection)

正常数据的向量通常会聚集在一起。如果一个新数据的向量远离大多数向量的聚集区,它就可能是一个异常点 (如垃圾邮件、欺诈交易)

例如:一个信用卡交易反欺诈系统,通过学习海量正常交易记录 (如金额、地点、时间、商户类型等特征的向量) 形成了 “正常交易” 的向量聚集区。当一笔新的交易发生时,系统将其转换为向量。如果该向量出现在 “正常聚集区” 之外 (例如,一笔发生在通常消费地之外的高额交易),系统则会将其标记为潜在的欺诈交易并进行警报。

在这里插入图片描述

3. 主流的嵌入模型

  • text-embedding-3-large (OpenAI):OpenAI 最强大的英语和非英语任务嵌入模型,默认维度3072,可降维如1024维,输入令牌长度支持为8192。
  • Qwen3-Embedding-8B (阿里巴巴):开源模型,支持100+种语言,上下文成度32k,嵌入维度最高4096,支持用户定义的输出维度,范围从32到4096。推理需要一定的GPU计算资源 (例如,至少需要16GB以上显存的GPU才能高效运行)。
  • gemini-embedding-001 (Google):支持100+种语⾔,默认维度3072,可选降维版本:1536维或768维,输入令牌长度支持为2048。

其他参考:

Huggingface 的 MTEB (Massive Multilingual Text Embedding Benchmark) 评测,是业界比较公认的标准。

在这里插入图片描述

4. 嵌入模型接入方式

嵌入模型接入和使用方式根据模型类型 (开源或闭源) 有根本性的不同。下图清晰地展示了两种典型的接入流程:

在这里插入图片描述

4.1 API 接入 (闭源)​

这是最快速、最简单的方式,无需管理任何基础设施。只需要向模型提供商的服务端发送一个 HTTP 请求即可。

适用模型:text-embedding-3-large、gemini-embedding-001 等。​

通用步骤:

  1. 注册账号并获取 API Key:在对应的云服务平台 (OpenAI Platform, Google AI Studio/Vertex AI) 上注册账号,获取用于身份验证的 API Key。
  2. 安装 SDK 或构造 HTTP请求:使用官方提供的 SDK (如 openai, google-generativeai) 或直接构造HTTP请求。
  3. 调用 API 并处理响应:发送文本,接收返回的 JSON 格式的向量数据。

示例1:发起 HTTP 请求

curl https://api.openai.com/v1/embeddings
	-H "Content-Type: application/json"
	-H "Authorization: Bearer $OPENAI_API_KEY"
	-d '{
		"input": "Your text string goes here",
		"model": "text-embedding-3-small"
	}'

响应包含嵌入向量 (浮点数列表) 以及一些其他元数据:

{
	"object": "list",
	"data": [
		{
			"object": "embedding",
			"index": 0,
 			"embedding": [
 				-0.006929283495992422,
 				-0.005336422007530928,
 				-4.547132266452536e-05,
 				-0.024047505110502243
			],
		}
	],
	"model": "text-embedding-3-small",
	"usage": {
	"prompt_tokens": 5,
	"total_tokens": 5
	}
}

在这里插入图片描述
在这里插入图片描述

由于需要充值才能正常调用

在这里插入图片描述

示例2:接入 SDK

安装库:pip install openai

示例代码:

# 使用 OpenAI Python SDK
from openai import OpenAI
# 1. 设置 API Key
client = OpenAI(api_key="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")
# 2. 准备输入文本
text = "这是一段需要转换为向量的文本"
# 3. 调用 API
response = client.embeddings.create(
    model="text-embedding-3-large", # 指定模型
    input=text,
    dimensions=1024 # 可选:指定输出维度,例如从3072降维到1024
)
# 4. 获取向量
embedding = response.data[0].embedding
print(f"向量维度:{len(embedding)}")
print(embedding)

4.2 本地部署 (开源)

这种方式需要自行准备计算资源 (通常是带有 GPU 的机器) 来运行模型,适合对数据隐私、成本和控制权有更高要求的场景。

适用模型:Qwen3-Embedding-8B 等。

通用步骤:

  1. 环境准备:准备一台有足够 GPU 显存的服务器 (对于Qwen3-Embedding-8B,需要至少16GB以上显存)。
  2. 模型下载:从 Hugging Face 等模型仓库下载模型权重文件和配置文件。
  3. 代码集成:使用像 transformers 这样的库来加载模型并进行推理。

对于大多数初创项目或原型验证,从 API 方式开始是最佳选择。当应用规模化或面临严格的数据合规要求时,再考虑迁移到本地部署开源模型。

在实际应用中,直接调用嵌入模型获取结果,与直接调用原生 LLM 存在相似的问题:无论是通过API还是本地部署获得向量,下一步通常都是将它们存入向量数据库 (如Chroma, Milvus, Pinecone等) 以供后续检索。为了便于切换不同的嵌入模型,很多项目会使用像 LangChain 这样的框架,它们提供了统一的嵌入模型接口。

在这里插入图片描述

四. 模型平台

1. Hugging Face (国外)

Hugging Face 是一个知名的开源库和平台,该平台以其强大的 Transformer 模型库和易用的 API 而闻名,为开发者和研究人员提供了丰富的预训练模型、工具和资源。对于从事 AI 研究的人来说,其重要性不亚于 GitHub。

官网:https://huggingface.co/

在这里插入图片描述

2. 魔搭社区 (国内)

魔搭 (ModelScope) 是由阿里巴巴达摩院推出的开源模型即服务 (MaaS) 共享平台,汇聚了计算机视觉、自然语言处理、语音等多领域的数千个预训练 AI 模型。其核心理念是 “开源、开放、共创”,通过提供丰富的工具链和社区生态,降低 AI 开发门槛,尤其为企业本地私有化部署提供了一条高效路径。

官网:https://www.modelscope.cn/

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐