各大厂商模型功能分类

名称 模型名称 类型 功能
qwen qwen3 文->文 通用模型
qwen3-VL 文/图->文 图文/多模态理解
qwen3-coder 文/代码->文/代码 代码/编程/软件工程模型
Qwen3Guard 文->文(安全等级、安全类别、是否拒绝等) 安全/审核
Qwen3-Omni 文/图/视频/音频->文/音频 多模态通用模型
Qwen3-Next 文->文(最长 262K 原生,可扩展到 1M tokens) 通用模型(25 万~100 万 token 超长上下文)
Qwen-Image 图/文/参数->图像(图像编辑) 文生图/图像生成与编辑
Qwen3-Reranker 文->数值分数 / 排序结果 排序/RAG组件模型
Qwen3-Embedding 文->向量(Text Embedding Vector) 向量/RAG组件模型
Qwen3-WorldPM 文->人类偏好评分 人类偏好打分器
wan Wan2.2-Animate 文/图/语音/视频(角色)->视频 视频生成/角色替换
Wan2.2-S2V 文/图/音频->视频 视频生成/表情、口型、身体动作与音频强同步
Wan2.2-TI2V 文/图->视频 视频生成
Wan2.2-I2V 图->视频 视频生成(第一帧图片)
Wan2.2-T2V 文->视频 视频生成(图片描述)
智谱 GLM-4.6 文->文 通用模型
GLM-4.6V 图/文/视频->文本 通用模型/图片、视频理解
glm-edge-1.5b-chat 文->文 通用模型/边缘部署
CogView4 文->图 图像生成
CogAgent 图/文->文 agent模型(动作指令)
GLM-Edge-V-2B 图/文->文 通用模型/边缘部署/图片理解
CogVideoX1.5 图/文->视频 视频生成
GLM-4-Voice 语言/文本->语言/文本 语音控制/语音、文本互转
CogVLM-Chat 图/文->文 通用模型/图片理解
字节 BindWeave 图/文->视频 视频生成
Sa2VA-VL 图/文/视频->文/视频 视频分割、跟踪
Ouro 文->文 通用模型/循环模型/循环换算力
Dolphin 图/文/PDF->文/JSON 图片理解/文档理解
FaceCLIP 图/文->图 图像生成/保留人脸
Video-As-Prompt-CogVideoX 图+文+视频->视频 视频生成/参考图片/参考视频
Lynx 图/视频->文 图片、视频理解
NEVC-1.0 视频->压缩视频 视频压缩
Attention2Probability 音频/文本/术语列表->文(术语识别) 语音识别/术语增强识别
HLLM 用户历史行为序列->推荐商品得分 推荐系统
LatentSync 1.5 视频+音频->视频(口型同步后) 视频生成/口型同步
InfiniteYou 文本+图像->图像 图像生成/保留人物身份
XVerse 文本(姿态、风格、光照等)+图像->图像 图像生成/多主体合成图片
ContentV 文->视频 视频生成
DreamO 图+文->图 图片生成/虚拟试衣/风格迁移/多条件组合生成
ListConRanker 文->文本得分 排序/RAG组件模型
Q-Insight 图->文 图像理解/质量打分
ID-Patch 多图+文->图 图片生成/多人合照
MegaTTS 3 音频+文->音 语音合成/语音克隆
Hyper-SD 文+图->图 图像生成
Feature-Preserving Portrait Editing 文+图->图 图像生成/保留人物身份
AnimateDiff-Lightning 文+图+视频->视频 视频生成
CascadeV 视频->视频 视频压缩
Shot2Story 视频->文 视频理解/故事生成
Make-An-Audio 2 文->音频 音频生成/背景音
腾讯 Hunyuan 文->文 通用模型
HunyuanImage-3.0 文/图->文/图 图像生成/图像理解
HunyuanVideo 文/图/音频->图/视频 视频生成/多模态
Hunyuan3D 文/图->3D模型 3D模型生成
HunyuanVideo-I2V 文+图->视频 高一致性 I2V/并行推理
AutoCodeBench 代码能力评测基准
HunyuanPortrait 图+视频->视频 人像动画/身份保持
HunyuanOCR 文/图->文 文本识别
HunyuanWorld 文/图/视频->3D世界 世界生成模型
Hunyuan-GameCraft 图+文+动作->视频 游戏视频生成
Hunyuan-DiT 文+图->图 图片生成
deepseek DeepSeekMoE 文->文 通用模型
DeepSeek LLM 文->文 通用模型
DeepSeekMath 文->文 数学推理
DeepSeek-VL 图/文->文 通用模型/图像理解
DeepSeek-Prover-V1.5 文->文 数学定理证明
DeepSeek-V2 文->文 通用模型
DeepSeek-VL2 图/文->文 通用模型/图像理解
DreamCraft3D 图/文->3D模型 3D模型生成
DeepSeek-R1 文->文 通用模型/推理
DeepSeek-Prover-V2 文->文 数学定理证明
DeepSeek-V3 文->文 通用模型
Janus 文+图->图 通用模型
DeepSeek-OCR 文+图/PDF->文 文本识别
DeepSeek-Coder 文->文(代码) 代码/编程/软件工程模型
DeepSeek-V3.2-Exp 文->文 agent模型
DeepSeekMath-V2 文->文 数学证明/解题
meta llama2 文->文 通用模型
llama3 文->文(文本、代码) 通用模型/推理
Llama4 Scout 文/图->文/代码 通用模型/图片理解
Llama4 Maverick 文/图->文/代码 通用模型/图片理解
Llama Prompt Guard 文/图->文 文本安全
CodeLlama 文->文/代码 代码/编程/软件工程模型

一、通用大语言模型(文本 / 推理 / 长上下文)

适用场景:对话、问答、总结、推理、Agent 核心中枢

  • qwen3
  • Qwen3-Next(超长上下文)
  • GLM-4.6
  • glm-edge-1.5b-chat(边缘)
  • Hunyuan
  • DeepSeek LLM
  • DeepSeek-V2
  • DeepSeek-V3
  • DeepSeek-R1(偏推理)
  • DeepSeekMoE
  • llama2
  • llama3
  • Llama4 Scout
  • Llama4 Maverick
  • Ouro(循环模型,偏系统级)

这一类是“底座模型”


二、多模态通用理解模型(图 / 视频 / 音频 → 文)

适用场景:图像理解、视频理解、多模态

  • qwen3-VL
  • Qwen3-Omni
  • GLM-4.6V
  • CogVLM-Chat
  • GLM-Edge-V-2B
  • DeepSeek-VL
  • DeepSeek-VL2
  • Lynx
  • Dolphin(文档 / PDF 理解)
  • HunyuanImage-3.0(理解部分)
  • HunyuanOCR(含理解)

RAG + Agent 的“感知层”


三、代码 / 软件工程模型

适用场景:写代码、改代码

  • qwen3-coder
  • DeepSeek-Coder
  • CodeLlama
  • llama3(代码能力)

四、数学 / 逻辑 /形式化推理模型

适用场景:数学推理、证明、严肃推导

  • DeepSeekMath
  • DeepSeekMath-V2
  • DeepSeek-Prover-V1.5
  • DeepSeek-Prover-V2

数学 / 定理级推理


五、Agent / 行为决策模型(动作指令)

适用场景:自动操作、工具调用、复杂工作流

  • CogAgent
  • DeepSeek-V3.2-Exp

不是“聊天”,而是“干活”


六、Embedding / RAG / 排序 / 评分模型

适用场景:知识库、搜索、推荐、召回、排序

  • Qwen3-Embedding
  • Qwen3-Reranker
  • ListConRanker
  • HLLM(推荐系统)

七、安全 / 审核 / 防攻击模型

适用场景:合规、内容审核、Prompt 攻击防御

  • Qwen3Guard
  • Llama Prompt Guard

八、图像生成 / 编辑 / 人物一致性

适用场景:AIGC、广告、电商、数字人

  • Qwen-Image
  • CogView4
  • Hunyuan-DiT
  • Hyper-SD
  • FaceCLIP(保留人脸)
  • InfiniteYou(身份保持)
  • Feature-Preserving Portrait Editing
  • XVerse(多主体合成)
  • DreamO(虚拟试衣 / 风格迁移)
  • ID-Patch(多人合照换脸)
  • Janus(通用图像生成)

九、视频生成(T2V / I2V / 多模态驱动)

适用场景:视频生成、广告、数字人、游戏

  • Wan2.2-T2V
  • Wan2.2-I2V
  • Wan2.2-TI2V
  • Wan2.2-S2V
  • Wan2.2-Animate
  • CogVideoX1.5
  • BindWeave
  • ContentV
  • AnimateDiff-Lightning
  • Video-As-Prompt-CogVideoX
  • HunyuanVideo
  • HunyuanVideo-I2V
  • Hunyuan-GameCraft

十、视频理解 / 分析 / 摘要

适用场景:监控、内容分析、安防、自动剪辑

  • Sa2VA-VL(分割 / 跟踪)
  • Shot2Story(视频 → 故事)

十一、音频 / 语音模型

适用场景:TTS、语音识别、数字人

  • GLM-4-Voice
  • MegaTTS 3(语音合成 / 克隆)
  • Make-An-Audio 2(音频生成)
  • Attention2Probability(术语增强 ASR)

十二、3D / 世界 / 空间生成模型

适用场景:游戏、仿真、数字孪生

  • Hunyuan3D
  • DreamCraft3D
  • HunyuanWorld

十三、视频压缩 / 表征模型(基础设施)

适用场景:视频系统、算力优化

  • NEVC-1.0(视频压缩)
  • CascadeV(VAE 视频压缩)

十四、评测 / Benchmark

适用场景:模型评估、研发基准

  • AutoCodeBench
  • Qwen3-WorldPM(人类偏好评分)
  • Q-Insight(图像质量评分)
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐