各大厂商模型功能分类

各大AI厂商模型功能分类概览：阿里云Qwen系列涵盖通用文本、多模态、代码、安全审核、超长上下文等10种模型；万Wan2.2系列专注于视频生成，支持文本/图像/音频输入；智谱GLM系列包含通用、边缘部署、图像生成、视频生成等8种模型；字节跳动模型涉及视频生成/编辑、文档理解、推荐系统等多样化功能。各厂商通过细分场景布局，形成差异化产品矩阵，覆盖文本、图像、视频、语音等多模态AI应用需求。

Nanotrix

648人浏览 · 2026-02-02 15:38:00

Nanotrix · 2026-02-02 15:38:00 发布

各大厂商模型功能分类

名称	模型名称	类型	功能
qwen	qwen3	文->文	通用模型
	qwen3-VL	文/图->文	图文/多模态理解
	qwen3-coder	文/代码->文/代码	代码/编程/软件工程模型
	Qwen3Guard	文->文（安全等级、安全类别、是否拒绝等）	安全/审核
	Qwen3-Omni	文/图/视频/音频->文/音频	多模态通用模型
	Qwen3-Next	文->文（最长 262K 原生，可扩展到 1M tokens）	通用模型（25 万～100 万 token 超长上下文）
	Qwen-Image	图/文/参数->图像（图像编辑）	文生图/图像生成与编辑
	Qwen3-Reranker	文->数值分数 / 排序结果	排序/RAG组件模型
	Qwen3-Embedding	文->向量（Text Embedding Vector）	向量/RAG组件模型
	Qwen3-WorldPM	文->人类偏好评分	人类偏好打分器
wan	Wan2.2-Animate	文/图/语音/视频（角色）->视频	视频生成/角色替换
	Wan2.2-S2V	文/图/音频->视频	视频生成/表情、口型、身体动作与音频强同步
	Wan2.2-TI2V	文/图->视频	视频生成
	Wan2.2-I2V	图->视频	视频生成（第一帧图片）
	Wan2.2-T2V	文->视频	视频生成（图片描述）
智谱	GLM-4.6	文->文	通用模型
	GLM-4.6V	图/文/视频->文本	通用模型/图片、视频理解
	glm-edge-1.5b-chat	文->文	通用模型/边缘部署
	CogView4	文->图	图像生成
	CogAgent	图/文->文	agent模型（动作指令）
	GLM-Edge-V-2B	图/文->文	通用模型/边缘部署/图片理解
	CogVideoX1.5	图/文->视频	视频生成
	GLM-4-Voice	语言/文本->语言/文本	语音控制/语音、文本互转
	CogVLM-Chat	图/文->文	通用模型/图片理解
字节	BindWeave	图/文->视频	视频生成
	Sa2VA-VL	图/文/视频->文/视频	视频分割、跟踪
	Ouro	文->文	通用模型/循环模型/循环换算力
	Dolphin	图/文/PDF->文/JSON	图片理解/文档理解
	FaceCLIP	图/文->图	图像生成/保留人脸
	Video-As-Prompt-CogVideoX	图+文+视频->视频	视频生成/参考图片/参考视频
	Lynx	图/视频->文	图片、视频理解
	NEVC-1.0	视频->压缩视频	视频压缩
	Attention2Probability	音频/文本/术语列表->文（术语识别）	语音识别/术语增强识别
	HLLM	用户历史行为序列->推荐商品得分	推荐系统
	LatentSync 1.5	视频+音频->视频（口型同步后）	视频生成/口型同步
	InfiniteYou	文本+图像->图像	图像生成/保留人物身份
	XVerse	文本（姿态、风格、光照等）+图像->图像	图像生成/多主体合成图片
	ContentV	文->视频	视频生成
	DreamO	图+文->图	图片生成/虚拟试衣/风格迁移/多条件组合生成
	ListConRanker	文->文本得分	排序/RAG组件模型
	Q-Insight	图->文	图像理解/质量打分
	ID-Patch	多图+文->图	图片生成/多人合照
	MegaTTS 3	音频+文->音	语音合成/语音克隆
	Hyper-SD	文+图->图	图像生成
	Feature-Preserving Portrait Editing	文+图->图	图像生成/保留人物身份
	AnimateDiff-Lightning	文+图+视频->视频	视频生成
	CascadeV	视频->视频	视频压缩
	Shot2Story	视频->文	视频理解/故事生成
	Make-An-Audio 2	文->音频	音频生成/背景音
腾讯	Hunyuan	文->文	通用模型
	HunyuanImage-3.0	文/图->文/图	图像生成/图像理解
	HunyuanVideo	文/图/音频->图/视频	视频生成/多模态
	Hunyuan3D	文/图->3D模型	3D模型生成
	HunyuanVideo-I2V	文+图->视频	高一致性 I2V/并行推理
	AutoCodeBench		代码能力评测基准
	HunyuanPortrait	图+视频->视频	人像动画/身份保持
	HunyuanOCR	文/图->文	文本识别
	HunyuanWorld	文/图/视频->3D世界	世界生成模型
	Hunyuan-GameCraft	图+文+动作->视频	游戏视频生成
	Hunyuan-DiT	文+图->图	图片生成
deepseek	DeepSeekMoE	文->文	通用模型
	DeepSeek LLM	文->文	通用模型
	DeepSeekMath	文->文	数学推理
	DeepSeek-VL	图/文->文	通用模型/图像理解
	DeepSeek-Prover-V1.5	文->文	数学定理证明
	DeepSeek-V2	文->文	通用模型
	DeepSeek-VL2	图/文->文	通用模型/图像理解
	DreamCraft3D	图/文->3D模型	3D模型生成
	DeepSeek-R1	文->文	通用模型/推理
	DeepSeek-Prover-V2	文->文	数学定理证明
	DeepSeek-V3	文->文	通用模型
	Janus	文+图->图	通用模型
	DeepSeek-OCR	文+图/PDF->文	文本识别
	DeepSeek-Coder	文->文（代码）	代码/编程/软件工程模型
	DeepSeek-V3.2-Exp	文->文	agent模型
	DeepSeekMath-V2	文->文	数学证明/解题
meta	llama2	文->文	通用模型
	llama3	文->文（文本、代码）	通用模型/推理
	Llama4 Scout	文/图->文/代码	通用模型/图片理解
	Llama4 Maverick	文/图->文/代码	通用模型/图片理解
	Llama Prompt Guard	文/图->文	文本安全
	CodeLlama	文->文/代码	代码/编程/软件工程模型

一、通用大语言模型（文本 / 推理 / 长上下文）

适用场景：对话、问答、总结、推理、Agent 核心中枢

qwen3
Qwen3-Next（超长上下文）
GLM-4.6
glm-edge-1.5b-chat（边缘）
Hunyuan
DeepSeek LLM
DeepSeek-V2
DeepSeek-V3
DeepSeek-R1（偏推理）
DeepSeekMoE
llama2
llama3
Llama4 Scout
Llama4 Maverick
Ouro（循环模型，偏系统级）

这一类是“底座模型”

二、多模态通用理解模型（图 / 视频 / 音频 → 文）

适用场景：图像理解、视频理解、多模态

qwen3-VL
Qwen3-Omni
GLM-4.6V
CogVLM-Chat
GLM-Edge-V-2B
DeepSeek-VL
DeepSeek-VL2
Lynx
Dolphin（文档 / PDF 理解）
HunyuanImage-3.0（理解部分）
HunyuanOCR（含理解）

RAG + Agent 的“感知层”

三、代码 / 软件工程模型

适用场景：写代码、改代码

qwen3-coder
DeepSeek-Coder
CodeLlama
llama3（代码能力）

四、数学 / 逻辑 /形式化推理模型

适用场景：数学推理、证明、严肃推导

DeepSeekMath
DeepSeekMath-V2
DeepSeek-Prover-V1.5
DeepSeek-Prover-V2

数学 / 定理级推理

五、Agent / 行为决策模型（动作指令）

适用场景：自动操作、工具调用、复杂工作流

CogAgent
DeepSeek-V3.2-Exp

不是“聊天”，而是“干活”

六、Embedding / RAG / 排序 / 评分模型

适用场景：知识库、搜索、推荐、召回、排序

Qwen3-Embedding
Qwen3-Reranker
ListConRanker
HLLM（推荐系统）

七、安全 / 审核 / 防攻击模型

适用场景：合规、内容审核、Prompt 攻击防御

Qwen3Guard
Llama Prompt Guard

八、图像生成 / 编辑 / 人物一致性

适用场景：AIGC、广告、电商、数字人

Qwen-Image
CogView4
Hunyuan-DiT
Hyper-SD
FaceCLIP（保留人脸）
InfiniteYou（身份保持）
Feature-Preserving Portrait Editing
XVerse（多主体合成）
DreamO（虚拟试衣 / 风格迁移）
ID-Patch（多人合照换脸）
Janus（通用图像生成）

九、视频生成（T2V / I2V / 多模态驱动）

适用场景：视频生成、广告、数字人、游戏

Wan2.2-T2V
Wan2.2-I2V
Wan2.2-TI2V
Wan2.2-S2V
Wan2.2-Animate
CogVideoX1.5
BindWeave
ContentV
AnimateDiff-Lightning
Video-As-Prompt-CogVideoX
HunyuanVideo
HunyuanVideo-I2V
Hunyuan-GameCraft

十、视频理解 / 分析 / 摘要

适用场景：监控、内容分析、安防、自动剪辑

Sa2VA-VL（分割 / 跟踪）
Shot2Story（视频 → 故事）

十一、音频 / 语音模型

适用场景：TTS、语音识别、数字人

GLM-4-Voice
MegaTTS 3（语音合成 / 克隆）
Make-An-Audio 2（音频生成）
Attention2Probability（术语增强 ASR）

十二、3D / 世界 / 空间生成模型

适用场景：游戏、仿真、数字孪生

Hunyuan3D
DreamCraft3D
HunyuanWorld

十三、视频压缩 / 表征模型（基础设施）

适用场景：视频系统、算力优化

NEVC-1.0（视频压缩）
CascadeV（VAE 视频压缩）

十四、评测 / Benchmark

适用场景：模型评估、研发基准

AutoCodeBench
Qwen3-WorldPM（人类偏好评分）
Q-Insight（图像质量评分）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

我让AI的记忆系统“抄袭”了你的CPU，效果拔群

2048 AI社区

我选了 Oxigraph 做 AI 的大脑，然后整个系统开挂了

2048 AI社区

Typora插件开发指南：打造专属IDE式写作环境

**从编辑器到“写作IDE”的愿景**：将Typora从一个优秀的Markdown编辑器，升级为集写作、管理、发布于一体的个性化工作台。- **了解Typora插件架构**：核心文件（`plugin.json`, `main.js`）、生命周期与API边界。- **操作文档内容**：读取、修改、插入Markdown与HTML。## 8. 从插件到生态：创意拓展方向 - **与外部工具链集成**：G