HuggingFace Tasks 全量说明表

本文系统整理了HuggingFace平台支持的多模态任务分类表，涵盖六大领域：多模态（支持语音/图像/视频与文本互转）、计算机视觉（含图像分类/生成/3D建模等20项任务）、自然语言处理（包含文本生成/翻译/问答等12项功能）、音频处理（实现语音识别/合成等6类应用）、表格数据处理（支持分类/预测等任务）以及强化学习与图机器学习。每项任务均提供中英日三语说明，全面展示了AI模型在多模态交互、视觉理

tomlone

269人浏览 · 2025-12-09 20:05:39

tomlone · 2025-12-09 20:05:39 发布

HuggingFace Tasks 全量说明表

📌 Multimodal（多模态 / マルチモーダル）

Task	中文说明	日文说明
Audio-Text-to-Text	语音内容转成文字并进一步生成文本	音声→文章への変換と生成
Image-Text-to-Text	根据图片生成文字说明	画像から文章を生成
Visual Question Answering	根据图片回答问题	画像に関する質問に回答
Document Question Answering	读取文档并回答问题	文書を読み取り質問に回答
Video-Text-to-Text	视频内容转成文字说明	動画内容を文章化
Visual Document Retrieval	根据图片查找相关文档	画像に基づき文書を検索
Any-to-Any	任意模态互转	任意モーダル間の変換

📌 Computer Vision（计算机视觉 / コンピュータビジョン）

Task	中文说明	日文说明
Depth Estimation	预测图像的深度信息	画像の深度情報を推定
Image Classification	判断图片属于哪一类	画像を分類
Object Detection	检测图片中的物体位置	画像内の物体を検出
Image Segmentation	将图片分割成不同区域	画像を領域ごとに分割
Text-to-Image	用文字生成图片	テキストから画像を生成
Image-to-Text	看到图片生成文字描述	画像説明文を生成
Image-to-Image	根据输入图生成另一张图	入力画像から別の画像を生成
Image-to-Video	从图生成视频	画像から動画を生成
Unconditional Image Generation	无条件随机生成图像	ランダム画像生成
Video Classification	视频分类	動画を分類
Text-to-Video	文本生成视频	テキストから動画生成
Zero-Shot Image Classification	无需训练直接分类	追加学習なしで画像分類
Mask Generation	生成物体遮罩	物体マスクを生成
Zero-Shot Object Detection	无训练条件下直接检测物体	学習なしで物体検出
Text-to-3D	文本生成 3D 模型	テキストから3Dモデル生成
Image-to-3D	图片生成 3D 模型	画像から3Dモデル生成
Image Feature Extraction	提取图片特征向量	画像特徴量を抽出
Keypoint Detection	检测关键点（姿态等）	キーポイント検出
Video-to-Video	用视频生成新视频	動画から別の動画を生成

📌 Natural Language Processing（自然语言处理 / 自然言語処理）

Task	中文说明	日文说明
Text Classification	文本分类	テキスト分類
Token Classification	词标签（如 NER）	トークン分類（例：固有表現抽出）
Table QA	根据表格回答问题	表に基づく質問応答
Question Answering	问答任务	質問応答
Zero-Shot Classification	无需训练的分类	追加学習なしの分類
Translation	翻译	翻訳
Summarization	摘要生成	要約
Feature Extraction	文本特征提取	テキスト特徴抽出
Text Generation	文本生成	テキスト生成
Fill-Mask	填空预测	マスク補完
Sentence Similarity	判断句子相似度	文の類似度判定
Text Ranking	文本排序（检索）	テキストランキング／検索

📌 Audio（音频 / 音声）

Task	中文说明	日文说明
Text-to-Speech	文本转语音	テキスト読み上げ
Text-to-Audio	文本生成音频效果	テキスト→音声効果生成
ASR（Automatic Speech Recognition）	语音转文字	音声認識（音声→文字）
Audio-to-Audio	音频变换	音声変換
Audio Classification	音频分类	音声分類
Voice Activity Detection	判断是否有人声	音声区間検出

📌 Tabular（表格数据 / 表形式データ）

Task	中文说明	日文说明
Tabular Classification	表格数据分类	表形式データ分類
Tabular Regression	表格数据预测	表形式データ回帰
Time Series Forecasting	时间序列预测	時系列予測

📌 Reinforcement Learning（强化学习 / 強化学習）

Task	中文说明	日文说明
Reinforcement Learning	通过奖励学习策略	報酬で学習する手法
Robotics	机器人学习控制任务	ロボット制御学習

📌 Other（其他 / その他）

Task	中文说明	日文说明
Graph Machine Learning	图结构学习	グラフ構造の機械学習

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

阿里千问大模型新功能实战：Wan-2.5视频生成与Qwen-Image-Edit图像编辑技巧详解

cover

9 个专科生思想汇报 AI 工具推荐，千笔降重查重率高

CppCon 2024 学习: C++ Under the Hood: (Internal Class Mechanisms) (续)

bp=>startup()bp=>bp+12b+8bp-4bp-..bp-Nsp=>Locals???stackparam argc,for main

所有评论(0)

查看更多评论

tomlone

已为社区贡献2条内容