前言

AI


一、LLM

LLM(Large Language Model,大语言模型)‌

1. 简介

  LLM(Large Language Model,大语言模型)‌是指使用大量文本数据训练的深度学习模型,能够生成自然语言文本或理解语言文本的含义。

LLM的核心思想是通过大规模无监督训练学习自然语言的模式和结构,模拟人类的语言认知和生成过程‌。

2. 工作原理和结构

  LLM通常采用Transformer架构和预训练目标(如Language Modeling)进行训练。通过层叠的神经网络结构,LLM学习并模拟人类语言的复杂规律,达到接近人类水平的文本生成能力。这种模型在自然语言处理领域具有广泛的应用,包括文本生成、文本分类、机器翻译、情感分析等‌。

3. 应用场景

  LLM在多种应用场景下表现出色,不仅能执行拼写检查和语法修正等简单的语言任务,还能处理文本摘要、机器翻译、情感分析、对话生成和内容推荐等复杂任务。近期,GPT-4和LLaMA等大语言模型在自然语言处理等领域取得了巨大的成功,并逐步应用于金融、医疗和教育等特定领域‌。

4. 最新研究进展

  最近的研究进展包括AI系统自我复制的能力和自回归搜索方法。复旦大学的研究表明,某些开源LLM具备自我克隆的能力,这标志着AI在自主进化方面取得了重大突破‌。此外,MIT、哈佛大学等机构的研究者提出了行动-思维链(COAT)机制,使LLM具备自回归搜索能力,提升了其在数学推理和跨领域任务中的表现‌。

5. 比较

  大语言模型采用与小模型类似的Transformer架构和预训练目标(如 Language Modeling),与小模型的主要区别在于增加模型大小、训练数据和计算资源 。

  相比传统的自然语言处理(Netural Language Processing, NLP)模型,大语言模型能够更好地理解和生成自然文本,同时表现出一定的逻辑思维和推理能力。

二、Transformer架构

1. 简介

  Transformer‌是一种在自然语言处理(NLP)领域具有革命性意义的神经网络架构,主要用于处理和生成语言相关的任务。

  Transformer架构由Google的研究团队在2017年提出,并在BERT等预训练模型中得到了广泛应用‌。

2. 基本原理和结构

Transformer架构主要由以下几个部分组成:

  • 输入部分‌:包括源文本嵌入层和位置编码器,用于将源文本中的词汇转换为向量表示,并生成位置向量以理解序列中的位置信息‌。
  • ‌编码器部分‌:由多个编码器层堆叠而成,每个编码器层包含多头自注意力子层和前馈全连接子层,并通过残差连接和层归一化操作进行优化‌。
  • ‌解码器部分‌:由多个解码器层组成,每个解码器层包含带掩码的多头自注意力子层、多头注意力子层(编码器到解码器)和前馈全连接子层‌。
  • ‌输出部分‌:包括线性层和Softmax层,用于将解码器的输出转换为最终的预测结果‌。

3. 应用场景

Transformer架构在NLP领域有着广泛的应用,包括但不限于:

  • ‌机器翻译‌:将一种语言自动翻译成另一种语言。
  • ‌文本生成‌:根据给定的文本生成新的文本内容。
  • ‌情感分析‌:分析文本的情感倾向,如积极、消极或中性。
  • ‌问答系统‌:根据问题生成答案。
  • ‌语言模型‌:如GPT系列,用于生成文本。

4. 最新进展

  最新的研究和发展方向包括探索如何通过扩展测试时计算量来提升模型推理能力,例如通过深度循环隐式推理方法,显著提升模型在复杂推理任务上的性能‌。此外,Transformer架构也在其他领域如图像处理和语音识别中展现出强大的应用潜力‌。

三、开源

1. 开源概念

为了适应时代发展,OSI(Open Source Initiative,开源代码促进会)专门针对 AI 提出了三种开源概念,分别是:

  • 开源 AI 系统:包括训练数据、训练代码和模型权重。代码和权重需要按照开源协议提供,而训练数据只需要公开出处(因为一些数据集确实无法公开提供)。
  • 开源 AI 模型:只需要提供模型权重和推理代码,并按照开源协议提供。
  • 开源 AI 权重:只需要提供模型权重,并按照开源协议提供。

所谓推理代码,就是让大模型跑起来的代码,或者说大模型的使用代码,这也是一个相当复杂的系统性工程,涉及到了 GPU 调用和模型架构。

DeepSeek 只开源了权重,并没有开源训练代码、数据集和推理代码,所以属于第三种开源形式。DeepSeek 官方一直都在说自己开源了模型权重,用词精确。

其实第二种和第三种区别不大,因为在实际部署中,一般都会借助 Ollama 工具包,它已经包含了推理代码(llama.cpp),所以即使官方公布了推理代码,也不一定会被使用。

2. 开源模式

即使获取到训练代码和数据集,复现出类似的模型权重,成本极高,花费几百万几千万甚至几个亿。一般对于大模型用户而言,直接把官方开源的模型权重拿来使用即可。

当然,开源训练代码和数据集,对于学术研究还是有重大帮助的,它能快速推动产业进步,让人类早点从 AGI 时代进入 ASI 时代,所以第一种开源模式的意义也不能被忽视。

3. 模型权重

所谓大模型,就是超大规模的神经网络,它类似于人类的大脑,由无数个神经元(权重/参数)构成。

神经网络
刚开始的时候,大模型的所有权重都是随机的,就类似于婴儿刚出生时大脑一片空白。训练大模型的过程,就是不断调整权重的过程,这和人类通过学习来调整神经元的连接是一个道理。把训练好的大模型开源,就相当于把学富五车的大脑仍给你,你可以让它做很多事情。

满血版 DeepSeek R1(671B 版本,一个 B 等于 10 个亿)有 6710 亿个参数,模型文件的体积达到了 720GB,相当恐怖。别说个人电脑了,单台服务器都无法运行,只能依赖集群了。

为了方便大家部署,官方又在满血版 R1 的基础上蒸馏出了多个小模型,减少了参数的数量,具体如下:

  • 70B 版本,模型体积约 16GB;
  • 32B 版本,模型体积约 16GB;
  • 7B 版本,模型体积约 4.7GB;
  • 1.5B 版本,模型体积约 3.6GB。

最后两个模型在配置强大的个人电脑上勉强能跑起来。

模型权重都是超大型文件,而且有指定的压缩格式(比如 .safetensors 格式),一般都是放在 Hugging Face(抱抱脸)上开源,而不是放在传统的 GitHub 上。

DeepSeek R1 的开源地址(需要梯子才能访问)

四、再谈DeepSeek

虽然 DeepSeek 只开源了模型权重,没有开源模型代码,但是官方通过技术报告/论文公布了很多核心算法,以及降本增效的工程解决方案,同时也为强化学习指明了一种新的范式,打破了 OpenAI 对推理技术的封锁(甚至是误导),让业界重新看到了 AI 持续进步的希望。

另外,DeepSeek 还允许二次蒸馏,不管是商业的还是公益的,你可以随便玩,这让小模型的训练变得更加简单和廉价。你再看看 OpenAI,明确写着不允许竞品进行二次蒸馏,并且妄图以此来指控 DeepSeek。

DeepSeek 的格局是人类,OpenAI 的格局是自己!

总之,对于一家商业公司来说,DeepSeek 的开放程度可以说是非常透明,透明到了毁灭自己的地步。包括 Hugging Face、伯克利大学、香港大学在内的某些机构,已经在尝试复现 DeepSeek 了。

五、主流产品

截至2025年12月,主流大型语言模型(LLM)产品、其供应商及对应模型如下,按国际国内分类整理,并附上代表性模型版本和核心特点:


1. 国际主流 LLM 产品

供应商 主流产品/模型系列 代表模型版本 核心特点
OpenAI(微软合作) ChatGPT / GPT 系列 GPT-5、GPT-4o(多模态) 全能型,支持智能体、图像生成、实时搜索;上下文达400K token
Anthropic Claude 系列 Claude 4 Sonnet / Opus、Claude 3 Haiku/Sonnet/Opus 超长上下文(最高100万token)、安全对齐强、擅长法律/科研文档处理
Google DeepMind Gemini 系列 Gemini 2.5 Pro / Ultra / Nano 原生多模态,深度集成 Google 生态,数学与代码能力强
xAI(Elon Musk) Grok 系列 Grok 4 整合 X(Twitter)实时数据,幽默风格,含 Grok Imagine 图像生成
Meta LLaMA 系列 LLaMA 3(8B/70B)、Code LLaMA 开源可商用,社区生态丰富,支持本地部署
Mistral AI(法国) Mistral / Mixtral 系列 Mistral 7B、Mixtral 8x7B、Mistral Large “小而精”,高效推理,宽松开源许可,多语言支持好
Falcon(阿联酋 TII) Falcon 系列 Falcon 180B、Falcon 2 完全开源可商用,学术基准表现优异
Hugging Face / BigScience BLOOM BLOOM-176B 支持46种自然语言+13种编程语言,强调包容性与透明性

2. 国内主流 LLM 产品

供应商 主流产品/模型系列 代表模型版本 核心特点
阿里巴巴 通义千问(Qwen) Qwen-72B、Qwen-7B、Qwen-V(多模态) 中文理解强,电商/企业场景优化,与阿里云深度集成
百度 文心一言 ERNIE Bot 4.5 / 文心一言 4.5 知识增强,结合百度搜索知识库,中文内容生成突出
智谱 AI(清华系) GLM / ChatGLM 系列 GLM-4、ChatGLM3、CodeGeeX 中英双语均衡,学术与逻辑推理强,开源活跃
深度求索(DeepSeek) DeepSeek 系列 DeepSeek R1、DeepSeek-Coder 开源免费,数学与编程能力顶尖,支持自建部署
零一万物(李开复) Yi 系列 Yi-34B、Yi-VL(多模态) 中英文均衡,超长上下文,商业友好许可
科大讯飞 星火大模型 Spark 4.5 语音+文本融合,教育、医疗场景优化
腾讯 混元(HunYuan) HunYuan-Large 企业服务导向,集成微信/QQ生态,支持多模态

3. 专业领域模型(补充)

类型 模型 供应商 特点
代码专用 GitHub Copilot Microsoft/OpenAI IDE 集成,多语言代码补全
Code LLaMA Meta 开源代码模型,支持调试与生成
DeepSeek-Coder DeepSeek 开源,支持多种编程语言,性能对标 GPT-4
学术研究 BLOOM、Falcon 国际合作 / TII 开源、可复现、多语言
多模态 GPT-4o、Gemini 2.5、Qwen-V、Yi-VL OpenAI / Google / 阿里 / 零一万物 支持图文理解与生成

4. 选择建议速查

  • 追求最强通用能力:GPT-5、Claude 4 Opus、Gemini Ultra
  • 中文业务优先:通义千问、文心一言、ChatGLM3
  • 开源 & 本地部署:LLaMA 3、Mistral、DeepSeek R1、Falcon
  • 长文本处理:Claude(100万token)、Yi 系列
  • 编程/数学推理:DeepSeek R1、Code LLaMA、GPT-5
  • 多模态应用:Gemini 2.5、GPT-4o、Qwen-V

本文的引用仅限自我学习如有侵权,请联系作者删除。
参考知识
抱歉,DeepSeek并没有开源代码,别被骗了!


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐