各大厂商模型功能分类
各大AI厂商模型功能分类概览:阿里云Qwen系列涵盖通用文本、多模态、代码、安全审核、超长上下文等10种模型;万Wan2.2系列专注于视频生成,支持文本/图像/音频输入;智谱GLM系列包含通用、边缘部署、图像生成、视频生成等8种模型;字节跳动模型涉及视频生成/编辑、文档理解、推荐系统等多样化功能。各厂商通过细分场景布局,形成差异化产品矩阵,覆盖文本、图像、视频、语音等多模态AI应用需求。
·
各大厂商模型功能分类
| 名称 | 模型名称 | 类型 | 功能 |
|---|---|---|---|
| qwen | qwen3 | 文->文 | 通用模型 |
| qwen3-VL | 文/图->文 | 图文/多模态理解 | |
| qwen3-coder | 文/代码->文/代码 | 代码/编程/软件工程模型 | |
| Qwen3Guard | 文->文(安全等级、安全类别、是否拒绝等) | 安全/审核 | |
| Qwen3-Omni | 文/图/视频/音频->文/音频 | 多模态通用模型 | |
| Qwen3-Next | 文->文(最长 262K 原生,可扩展到 1M tokens) | 通用模型(25 万~100 万 token 超长上下文) | |
| Qwen-Image | 图/文/参数->图像(图像编辑) | 文生图/图像生成与编辑 | |
| Qwen3-Reranker | 文->数值分数 / 排序结果 | 排序/RAG组件模型 | |
| Qwen3-Embedding | 文->向量(Text Embedding Vector) | 向量/RAG组件模型 | |
| Qwen3-WorldPM | 文->人类偏好评分 | 人类偏好打分器 | |
| wan | Wan2.2-Animate | 文/图/语音/视频(角色)->视频 | 视频生成/角色替换 |
| Wan2.2-S2V | 文/图/音频->视频 | 视频生成/表情、口型、身体动作与音频强同步 | |
| Wan2.2-TI2V | 文/图->视频 | 视频生成 | |
| Wan2.2-I2V | 图->视频 | 视频生成(第一帧图片) | |
| Wan2.2-T2V | 文->视频 | 视频生成(图片描述) | |
| 智谱 | GLM-4.6 | 文->文 | 通用模型 |
| GLM-4.6V | 图/文/视频->文本 | 通用模型/图片、视频理解 | |
| glm-edge-1.5b-chat | 文->文 | 通用模型/边缘部署 | |
| CogView4 | 文->图 | 图像生成 | |
| CogAgent | 图/文->文 | agent模型(动作指令) | |
| GLM-Edge-V-2B | 图/文->文 | 通用模型/边缘部署/图片理解 | |
| CogVideoX1.5 | 图/文->视频 | 视频生成 | |
| GLM-4-Voice | 语言/文本->语言/文本 | 语音控制/语音、文本互转 | |
| CogVLM-Chat | 图/文->文 | 通用模型/图片理解 | |
| 字节 | BindWeave | 图/文->视频 | 视频生成 |
| Sa2VA-VL | 图/文/视频->文/视频 | 视频分割、跟踪 | |
| Ouro | 文->文 | 通用模型/循环模型/循环换算力 | |
| Dolphin | 图/文/PDF->文/JSON | 图片理解/文档理解 | |
| FaceCLIP | 图/文->图 | 图像生成/保留人脸 | |
| Video-As-Prompt-CogVideoX | 图+文+视频->视频 | 视频生成/参考图片/参考视频 | |
| Lynx | 图/视频->文 | 图片、视频理解 | |
| NEVC-1.0 | 视频->压缩视频 | 视频压缩 | |
| Attention2Probability | 音频/文本/术语列表->文(术语识别) | 语音识别/术语增强识别 | |
| HLLM | 用户历史行为序列->推荐商品得分 | 推荐系统 | |
| LatentSync 1.5 | 视频+音频->视频(口型同步后) | 视频生成/口型同步 | |
| InfiniteYou | 文本+图像->图像 | 图像生成/保留人物身份 | |
| XVerse | 文本(姿态、风格、光照等)+图像->图像 | 图像生成/多主体合成图片 | |
| ContentV | 文->视频 | 视频生成 | |
| DreamO | 图+文->图 | 图片生成/虚拟试衣/风格迁移/多条件组合生成 | |
| ListConRanker | 文->文本得分 | 排序/RAG组件模型 | |
| Q-Insight | 图->文 | 图像理解/质量打分 | |
| ID-Patch | 多图+文->图 | 图片生成/多人合照 | |
| MegaTTS 3 | 音频+文->音 | 语音合成/语音克隆 | |
| Hyper-SD | 文+图->图 | 图像生成 | |
| Feature-Preserving Portrait Editing | 文+图->图 | 图像生成/保留人物身份 | |
| AnimateDiff-Lightning | 文+图+视频->视频 | 视频生成 | |
| CascadeV | 视频->视频 | 视频压缩 | |
| Shot2Story | 视频->文 | 视频理解/故事生成 | |
| Make-An-Audio 2 | 文->音频 | 音频生成/背景音 | |
| 腾讯 | Hunyuan | 文->文 | 通用模型 |
| HunyuanImage-3.0 | 文/图->文/图 | 图像生成/图像理解 | |
| HunyuanVideo | 文/图/音频->图/视频 | 视频生成/多模态 | |
| Hunyuan3D | 文/图->3D模型 | 3D模型生成 | |
| HunyuanVideo-I2V | 文+图->视频 | 高一致性 I2V/并行推理 | |
| AutoCodeBench | 代码能力评测基准 | ||
| HunyuanPortrait | 图+视频->视频 | 人像动画/身份保持 | |
| HunyuanOCR | 文/图->文 | 文本识别 | |
| HunyuanWorld | 文/图/视频->3D世界 | 世界生成模型 | |
| Hunyuan-GameCraft | 图+文+动作->视频 | 游戏视频生成 | |
| Hunyuan-DiT | 文+图->图 | 图片生成 | |
| deepseek | DeepSeekMoE | 文->文 | 通用模型 |
| DeepSeek LLM | 文->文 | 通用模型 | |
| DeepSeekMath | 文->文 | 数学推理 | |
| DeepSeek-VL | 图/文->文 | 通用模型/图像理解 | |
| DeepSeek-Prover-V1.5 | 文->文 | 数学定理证明 | |
| DeepSeek-V2 | 文->文 | 通用模型 | |
| DeepSeek-VL2 | 图/文->文 | 通用模型/图像理解 | |
| DreamCraft3D | 图/文->3D模型 | 3D模型生成 | |
| DeepSeek-R1 | 文->文 | 通用模型/推理 | |
| DeepSeek-Prover-V2 | 文->文 | 数学定理证明 | |
| DeepSeek-V3 | 文->文 | 通用模型 | |
| Janus | 文+图->图 | 通用模型 | |
| DeepSeek-OCR | 文+图/PDF->文 | 文本识别 | |
| DeepSeek-Coder | 文->文(代码) | 代码/编程/软件工程模型 | |
| DeepSeek-V3.2-Exp | 文->文 | agent模型 | |
| DeepSeekMath-V2 | 文->文 | 数学证明/解题 | |
| meta | llama2 | 文->文 | 通用模型 |
| llama3 | 文->文(文本、代码) | 通用模型/推理 | |
| Llama4 Scout | 文/图->文/代码 | 通用模型/图片理解 | |
| Llama4 Maverick | 文/图->文/代码 | 通用模型/图片理解 | |
| Llama Prompt Guard | 文/图->文 | 文本安全 | |
| CodeLlama | 文->文/代码 | 代码/编程/软件工程模型 |
一、通用大语言模型(文本 / 推理 / 长上下文)
适用场景:对话、问答、总结、推理、Agent 核心中枢
- qwen3
- Qwen3-Next(超长上下文)
- GLM-4.6
- glm-edge-1.5b-chat(边缘)
- Hunyuan
- DeepSeek LLM
- DeepSeek-V2
- DeepSeek-V3
- DeepSeek-R1(偏推理)
- DeepSeekMoE
- llama2
- llama3
- Llama4 Scout
- Llama4 Maverick
- Ouro(循环模型,偏系统级)
这一类是“底座模型”
二、多模态通用理解模型(图 / 视频 / 音频 → 文)
适用场景:图像理解、视频理解、多模态
- qwen3-VL
- Qwen3-Omni
- GLM-4.6V
- CogVLM-Chat
- GLM-Edge-V-2B
- DeepSeek-VL
- DeepSeek-VL2
- Lynx
- Dolphin(文档 / PDF 理解)
- HunyuanImage-3.0(理解部分)
- HunyuanOCR(含理解)
RAG + Agent 的“感知层”
三、代码 / 软件工程模型
适用场景:写代码、改代码
- qwen3-coder
- DeepSeek-Coder
- CodeLlama
- llama3(代码能力)
四、数学 / 逻辑 /形式化推理模型
适用场景:数学推理、证明、严肃推导
- DeepSeekMath
- DeepSeekMath-V2
- DeepSeek-Prover-V1.5
- DeepSeek-Prover-V2
数学 / 定理级推理
五、Agent / 行为决策模型(动作指令)
适用场景:自动操作、工具调用、复杂工作流
- CogAgent
- DeepSeek-V3.2-Exp
不是“聊天”,而是“干活”
六、Embedding / RAG / 排序 / 评分模型
适用场景:知识库、搜索、推荐、召回、排序
- Qwen3-Embedding
- Qwen3-Reranker
- ListConRanker
- HLLM(推荐系统)
七、安全 / 审核 / 防攻击模型
适用场景:合规、内容审核、Prompt 攻击防御
- Qwen3Guard
- Llama Prompt Guard
八、图像生成 / 编辑 / 人物一致性
适用场景:AIGC、广告、电商、数字人
- Qwen-Image
- CogView4
- Hunyuan-DiT
- Hyper-SD
- FaceCLIP(保留人脸)
- InfiniteYou(身份保持)
- Feature-Preserving Portrait Editing
- XVerse(多主体合成)
- DreamO(虚拟试衣 / 风格迁移)
- ID-Patch(多人合照换脸)
- Janus(通用图像生成)
九、视频生成(T2V / I2V / 多模态驱动)
适用场景:视频生成、广告、数字人、游戏
- Wan2.2-T2V
- Wan2.2-I2V
- Wan2.2-TI2V
- Wan2.2-S2V
- Wan2.2-Animate
- CogVideoX1.5
- BindWeave
- ContentV
- AnimateDiff-Lightning
- Video-As-Prompt-CogVideoX
- HunyuanVideo
- HunyuanVideo-I2V
- Hunyuan-GameCraft
十、视频理解 / 分析 / 摘要
适用场景:监控、内容分析、安防、自动剪辑
- Sa2VA-VL(分割 / 跟踪)
- Shot2Story(视频 → 故事)
十一、音频 / 语音模型
适用场景:TTS、语音识别、数字人
- GLM-4-Voice
- MegaTTS 3(语音合成 / 克隆)
- Make-An-Audio 2(音频生成)
- Attention2Probability(术语增强 ASR)
十二、3D / 世界 / 空间生成模型
适用场景:游戏、仿真、数字孪生
- Hunyuan3D
- DreamCraft3D
- HunyuanWorld
十三、视频压缩 / 表征模型(基础设施)
适用场景:视频系统、算力优化
- NEVC-1.0(视频压缩)
- CascadeV(VAE 视频压缩)
十四、评测 / Benchmark
适用场景:模型评估、研发基准
- AutoCodeBench
- Qwen3-WorldPM(人类偏好评分)
- Q-Insight(图像质量评分)
更多推荐

所有评论(0)