CLIP 的解释
是OpenAI 在 2021 年提出的一种多模态模型,核心能力是:👉把“文字”和“图片”映射到同一个语义空间里,让模型理解“这张图在说什么”“这句话像哪张图”。CLIP 学会了把图片当语言理解,也把语言当图片匹配。CLIP (对齐)↓OpenCLIP / SLIP(更稳更强)↓DenseCLIP / ViLD(视觉任务扩展)↓CLIP + Diffusion(生成)↓BLIP / Flaming
文章目录
- 一、起点:CLIP 本身(2021)
- 二、第一波:CLIP 的“复刻 & 修补”(2021–2022)
- 三、第二波:CLIP 作为“视觉基础模型”(2022)
- 四、第三波:CLIP + 生成模型(2021–2023)
- 五、第四波:CLIP 的“能力扩展”(2022–2023)
- 六、第五波:CLIP → 多模态大模型时代(2023–至今)
- 七、整体脉络总结(一眼看懂)
- 八、一句学术级总结
- 一、S 级|CLIP 体系的“根论文”(必读)
- 二、A 级|CLIP 能力增强(你会看到“补丁思路”)
- 三、A 级|CLIP → 视觉任务(开放词表)
- 四、S 级|CLIP + 生成(理解 Stable Diffusion 必读)
- 五、S 级|CLIP → 多模态大模型(时代转折)
- 六、B 级|进阶 & 细分方向(按你兴趣选)
- 七、推荐阅读顺序(实用版)
- 八、我给你的“研究型建议”
- 一、CLIP 研究问题地图(Research Problem Map)
- 二、CLIP 在小目标检测中的应用(重点)
- 三、如果你要“真做研究”,我给你 3 个可行切入点
- 四、一句话研究总结
- 一句话结论(先给你站队)
- 一、最适合 + CLIP 联合的三大方法类型(重点)
- 二、不太适合和 CLIP 联合的(重要避坑)
- 三、把方法 × CLIP 的适配度直接列清楚
- 四、如果你现在要“选一个方向发论文”
- 五、一句研究级总结
什么是 CLIP?
CLIP(Contrastive Language–Image Pretraining) 是 OpenAI 在 2021 年提出的一种多模态模型,核心能力是:
👉 把“文字”和“图片”映射到同一个语义空间里,让模型理解“这张图在说什么”“这句话像哪张图”。
简单说:
CLIP 学会了把图片当语言理解,也把语言当图片匹配。
CLIP 是怎么训练的?
CLIP 的训练思路非常巧妙,用的是对比学习(Contrastive Learning):
-
收集了 4 亿+ 图片–文本对(比如:
🖼️ 一张狗的照片
📝 “a photo of a dog”) -
模型分成两个部分:
- 图像编码器(ResNet / ViT)
- 文本编码器(Transformer)
-
训练目标:
- 正确的图片–文本对 → 向量更接近
- 不相关的对 → 向量拉远
📌 最终效果:
图片和文字被“翻译”成同一种向量语言。
CLIP 能干什么?
CLIP 最厉害的地方是:不用重新训练,也能做很多任务(Zero-shot Learning)。
1️⃣ 零样本图像分类(Zero-shot Classification)
不用喂任何标注数据,只要给文字:
"a photo of a cat"
"a photo of a dog"
"a photo of a car"
CLIP 会判断图片和哪句话最像 🤯
👉 在很多数据集上,效果接近甚至超过传统监督模型。
2️⃣ 图文检索
- 用文字找图片
- 用图片找文字
这也是现在很多 图像搜索 / 素材网站 / 多模态 AI 的基础能力。
3️⃣ 多模态理解基础模型
CLIP 是很多模型的“地基”,比如:
- DALL·E(文生图)
- Stable Diffusion(用 CLIP 做语义对齐)
- BLIP / Flamingo / LLaVA 等多模态大模型
CLIP 的优点
✅ 不依赖人工标注的分类标签
✅ 泛化能力强,能理解开放世界概念
✅ 文本非常灵活(prompt engineering 很重要)
✅ 多模态模型的里程碑
CLIP 的局限
❌ 不是真的“看懂”图像,而是统计对齐
❌ 对细节推理、空间关系、计数能力较弱
❌ 对 prompt 非常敏感(措辞不同结果会变)
❌ 容易继承训练数据里的偏见
一、起点:CLIP 本身(2021)
1️⃣ CLIP
📄 Learning Transferable Visual Models From Natural Language Supervision
OpenAI,2021
核心贡献
- 首次证明:自然语言可以作为视觉监督信号
- 用 4 亿图文对 + 对比学习
- 建立 图像–文本共享语义空间
- 强调 Zero-shot Learning
方法结构
Image Encoder (ResNet / ViT)
Text Encoder (Transformer)
↓
Contrastive Loss
↓
Joint Embedding Space
解决了什么?
- 摆脱 ImageNet 固定类别
- 打开「开放词表视觉理解」
同时也暴露了问题
- 只能做 匹配 / 相似度
- 推理、计数、组合能力弱
- 对 prompt 极度敏感
👉 CLIP = 新范式,但不是终点
二、第一波:CLIP 的“复刻 & 修补”(2021–2022)
这阶段的关键词是:
复现 + 更稳 + 更大 + 更可用
2️⃣ OpenCLIP(2022)
📄 LAION + 社区
核心思想
- 开源复现 CLIP
- 更大规模(LAION-400M / 2B)
- 更多 backbone(ViT-H, ViT-G)
意义
- CLIP 从论文 → 工业基础设施
- 成为 Stable Diffusion 等模型的默认组件
3️⃣ SLIP(Self-supervision meets Language-Image Pretraining)
📄 2021, FAIR
改进点
-
CLIP + 自监督学习(SimCLR)
-
同时做:
- 图文对齐
- 图像自身的表征学习
解决的问题
- CLIP 对纯视觉任务(检测、分割)不够强
- SLIP 提升了视觉表示质量
4️⃣ FILIP(Fine-grained CLIP)
📄 2021
核心思想
- 原 CLIP:全局图像 vs 全局文本
- FILIP:patch ↔ token 的细粒度对齐
解决的问题
- CLIP 看不清局部
- 对细节理解差
👉 这是后来很多「区域级多模态」工作的起点
三、第二波:CLIP 作为“视觉基础模型”(2022)
这一阶段,CLIP 不再只是“分类器”,而是被当成:
通用视觉 backbone
5️⃣ DenseCLIP(CVPR 2022)
目标
- 把 CLIP 用到 语义分割
方法
- 用文本 prompt 作为类别原型
- 将 CLIP 特征引入像素级任务
意义
- 证明 CLIP 不只做 classification
- 进入 Dense Prediction 领域
6️⃣ RegionCLIP / ViLD
📄 2022
核心思想
- 用 CLIP 处理 开放词表目标检测
- 不限制“猫狗车人”
解决的问题
- 传统检测模型类别封闭
- CLIP 提供语言驱动的类别扩展能力
四、第三波:CLIP + 生成模型(2021–2023)
CLIP 真正“出圈”的地方在这 👇
7️⃣ CLIP + GAN / Diffusion(DALL·E 1, VQGAN+CLIP)
用法
- CLIP 作为 审美 & 语义裁判
- 生成模型负责“画”
- CLIP 负责“判断像不像文字”
局限
- CLIP 不会生成
- 只能提供梯度或评分
👉 直接催生了 Stable Diffusion 架构
8️⃣ Stable Diffusion 中的 CLIP
角色
- Text Encoder
- 语义对齐核心
影响
- prompt engineering
- negative prompt
- style control
CLIP 成了文本到视觉的语言接口
五、第四波:CLIP 的“能力扩展”(2022–2023)
这一阶段大家意识到:
CLIP 不会“想”,只能“对齐”
于是开始补脑子。
9️⃣ BLIP / BLIP-2
📄 Salesforce
核心思路
- CLIP 提供对齐能力
- 新增 Q-Former / LLM
- 让模型开始「看图说话」「图文推理」
关键转变
- 从 embedding → 生成式理解
🔟 Flamingo / Kosmos-1
特点
- CLIP-style vision encoder
- 接大语言模型
- few-shot 多模态推理
👉 CLIP 成为「眼睛」
六、第五波:CLIP → 多模态大模型时代(2023–至今)
11️⃣ LLaVA / MiniGPT-4 / Qwen-VL
共通结构
CLIP-like Vision Encoder
↓
Projection
↓
LLM
CLIP 的新身份
- 不再是主角
- 而是 视觉前端标准件
七、整体脉络总结(一眼看懂)
CLIP (对齐)
↓
OpenCLIP / SLIP(更稳更强)
↓
DenseCLIP / ViLD(视觉任务扩展)
↓
CLIP + Diffusion(生成)
↓
BLIP / Flamingo(理解 + 推理)
↓
LLaVA / 多模态 LLM(通用智能)
八、一句学术级总结
CLIP 将“语言”引入视觉监督,
开启了从封闭视觉任务 → 开放世界多模态智能的转折点。
太好了,这一步已经是奔着“真做研究”去了🙂
下面我给你一份CLIP 方向「论文必读清单」,不是乱堆,而是按研究阶段 + 阅读优先级来排的。你照着这个顺序读,脉络会非常清楚。
我分成 S / A / B 三个级别:
- S = 必须精读(里程碑)
- A = 强烈推荐(承上启下)
- B = 选读(视研究方向)
一、S 级|CLIP 体系的“根论文”(必读)
1️⃣ CLIP(开山之作)
📄 Learning Transferable Visual Models From Natural Language Supervision
OpenAI, 2021
为什么必读
- 所有后续工作的“原点”
- 对比学习 + 语言监督范式
- zero-shot 的理论与实验设计
阅读重点
- contrastive loss 设计
- prompt engineering 的实验
- zero-shot evaluation protocol
2️⃣ ALIGN(Google 同期工作)
📄 Scaling Up Visual and Vision-Language Representation Learning with Noisy Text Supervision
Google, 2021
为什么必读
- 和 CLIP 几乎同一时间
- 更强调“规模 + 噪声容忍”
对比 CLIP 看
- 数据质量 vs 数据规模
- 噪声文本是否真的 ok?
3️⃣ OpenCLIP
📄 OpenCLIP: An Open Reproduction of CLIP
2022
为什么必读
- 工业级 CLIP
- 现在几乎所有生成模型都靠它
阅读重点
- 数据集(LAION)
- 不同 ViT 尺寸的 scaling law
二、A 级|CLIP 能力增强(你会看到“补丁思路”)
4️⃣ SLIP
📄 SLIP: Self-supervision meets Language-Image Pre-training
NeurIPS 2021
核心问题
CLIP 的视觉表征够好吗?
重点
- CLIP + SimCLR
- 为什么单靠图文对齐不够
5️⃣ FILIP
📄 Fine-grained Interactive Language-Image Pre-training
ICLR 2022
核心问题
CLIP 为什么看不清细节?
重点
- patch-token 交互
- 局部语义对齐
6️⃣ CoOp / CoCoOp(Prompt 学习)
📄 Learning to Prompt for Vision-Language Models
CVPR 2022
核心问题
prompt 是不是只能人工写?
重点
- soft prompt
- 类别自适应 prompt
👉 这是 prompt engineering 学术化的起点
三、A 级|CLIP → 视觉任务(开放词表)
7️⃣ ViLD
📄 Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation
ICLR 2022
为什么重要
- 第一次系统性“开放词表检测”
8️⃣ DenseCLIP
📄 DenseCLIP: Language-Guided Dense Prediction with CLIP
CVPR 2022
重点
- 语义分割
- pixel-level vs language
9️⃣ RegionCLIP
📄 RegionCLIP: Region-based Language-Image Pretraining
CVPR 2022
重点
- region-level 对齐
- 为检测打地基
四、S 级|CLIP + 生成(理解 Stable Diffusion 必读)
🔟 DALL·E
📄 Zero-Shot Text-to-Image Generation
OpenAI, 2021
为什么必读
- CLIP 首次用于生成评估
1️⃣1️⃣ Stable Diffusion
📄 High-Resolution Image Synthesis with Latent Diffusion Models
CVPR 2022
CLIP 在这的角色
- text encoder
- 语义约束器
👉 不读这篇,很难理解现在的文生图
五、S 级|CLIP → 多模态大模型(时代转折)
1️⃣2️⃣ BLIP
📄 BLIP: Bootstrapping Language-Image Pre-training
ICML 2022
关键转变
- 从 embedding → generation
1️⃣3️⃣ BLIP-2
📄 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and LLMs
ICML 2023
必读原因
- CLIP + LLM 的标准套路
1️⃣4️⃣ Flamingo
📄 Flamingo: a Visual Language Model for Few-Shot Learning
DeepMind, 2022
重点
- cross-attention
- few-shot 多模态推理
六、B 级|进阶 & 细分方向(按你兴趣选)
🔹 理论 & 表征
- DeCLIP
- CLOOB
- UniCL
🔹 偏见 & 鲁棒性
- On the Dangers of Stochastic Parrots(背景)
- FairCLIP
🔹 评测反思
- Winoground
- SugarCrepe
七、推荐阅读顺序(实用版)
如果你时间有限,照这个 10 篇顺序读👇:
- CLIP
- ALIGN
- OpenCLIP
- SLIP
- FILIP
- CoOp
- DenseCLIP
- Stable Diffusion
- BLIP-2
- LLaVA(作为时代收尾)
八、我给你的“研究型建议”
-
📌 第一遍别抠公式,先看 motivation + experiment
-
📌 每篇问自己一句:
「这篇是在修 CLIP 的哪一个弱点?」
-
📌 把“不能做什么”记下来,比“能做什么”更重要
太好了,这个问题已经非常“研究生 / 博士开题级别”了 👍
我分两大块来讲,先给你一张「CLIP 研究问题地图」,再专门深挖:CLIP 在小目标检测(Small Object Detection)里的应用与痛点。我会尽量用「问题导向」而不是堆论文名。
一、CLIP 研究问题地图(Research Problem Map)
你可以把 CLIP 的研究问题理解成一句话:
CLIP 很会“对齐”,但不会“看细节 / 想问题 / 做决策”
下面是当前主流研究拆解👇
① 表征层面(Representation)
Q1:CLIP 的视觉特征“够视觉”吗?
问题
- CLIP 偏语义,对几何 / 结构 / 局部不敏感
- 对检测、分割、姿态任务不友好
典型工作
- SLIP
- DenseCLIP
- RegionCLIP
核心矛盾
语言监督 vs 视觉归纳偏置
Q2:CLIP 为什么对局部信息不敏感?
问题
- 全局 pooling
- 对比学习鼓励“最小充分特征”
研究方向
- patch-token 对齐(FILIP)
- region-level CLIP
- multi-scale CLIP
📌 小目标问题 = 这个问题的极端版本
② 对齐机制(Alignment)
Q3:全局对齐是不是太粗?
问题
- Image ↔ Sentence 太弱
- 小目标语义被背景淹没
解决思路
- Region ↔ Phrase
- Object Query ↔ Token
- Token-wise contrastive loss
Q4:语言到底该参与到哪一层?
问题
- early fusion vs late fusion
- text 只做原型,还是参与推理?
典型探索
- prompt tuning
- cross-attention
- Q-Former
③ Prompt & 监督方式
Q5:Prompt 是“魔法”还是“噪声”?
问题
- prompt 对结果高度敏感
- 类别名称 ≠ 视觉语义
研究方向
- CoOp / CoCoOp
- learnable prompts
- object-level prompt
📌 小目标检测里,「a small object」几乎没用 😅
④ 泛化与鲁棒性
Q6:CLIP 对分布外目标靠谱吗?
问题
- 小目标常出现在复杂背景
- CLIP 偏好“常见+显著物体”
方向
- hard negative mining
- long-tail adaptation
- scale-aware contrastive learning
⑤ CLIP + 推理能力
Q7:CLIP 不会数、不懂关系,怎么办?
问题
- “三个小螺丝”
- “远处一排行人”
趋势
- CLIP + LLM
- 结构化视觉 token
二、CLIP 在小目标检测中的应用(重点)
我们先一句话点破现实:
原生 CLIP = 非常不适合小目标检测
原因👇
1️⃣ 为什么 CLIP 天生对小目标不友好?
(1)分辨率 & pooling
- CLIP 输入通常 224×224
- ViT patch = 16×16
- 小目标 → 1–2 个 patch → 信息直接丢失
(2)对比学习机制
CLIP 优化的是:
“这张图大概是什么”
而不是:
“这里有没有一个小东西”
📌 小目标在 loss 里权重极低
(3)语言监督偏置
- 训练数据偏向「主体突出」
- 小目标多数只在 caption 里当背景
2️⃣ 现有 CLIP 小目标检测路线(三大类)
🟦 路线一:CLIP 作为“语义分类头”
代表思路
- ViLD
- RegionCLIP
- Open-vocabulary DETR
做法
- 用传统检测器找 proposal
- 用 CLIP 判断类别
优点
- 不改 CLIP
- 开放词表
缺点
- proposal 阶段已经错过小目标
- recall 低
📌 小目标 → 根本提不出来
🟦 路线二:多尺度 + 局部 CLIP
代表思想
- multi-scale CLIP feature
- patch-level contrastive loss
典型改法
- 高分辨率输入
- FPN + CLIP
- region-text 对齐
问题
- 算力爆炸
- CLIP 训练目标不匹配
🟦 路线三:CLIP + 强视觉检测器(主流)
这是目前最现实有效的一条。
架构
High-res detector (YOLO / DINO / Deformable DETR)
↓
Region features
↓
CLIP text embedding (open-vocab)
关键点
- 小目标靠 detector
- CLIP 只负责“叫什么”
📌 CLIP = 语义扩展器,不是发现器
3️⃣ 近年针对“小目标 + CLIP”的研究方向
🔹 方向 A:Scale-aware Alignment
- 不同尺度对应不同文本嵌入
- scale-conditioned contrastive loss
🔹 方向 B:Region Prompting
- “a tiny {object}”
- learnable region prompts
🔹 方向 C:CLIP + SAM
- SAM 找 mask
- CLIP 负责语义
- 小目标 segmentation → detection
4️⃣ 关键失败案例(Reviewer 会盯的)
你如果做这个方向,一定会被问👇
❌ CLIP 能 detect 小目标,还是只是 classify?
❌ 小目标 recall 提升来自哪里?
❌ 是否只是 detector 更强?
❌ 开放词表 vs 封闭词表公平对比了吗?
三、如果你要“真做研究”,我给你 3 个可行切入点
✅ 切入点 1:Scale-aware CLIP Pretraining
- 修改 contrastive loss
- 强化小区域权重
✅ 切入点 2:Region-text Matching for Tiny Objects
- phrase-level caption
- object-centric CLIP
✅ 切入点 3:CLIP + LLM 生成小目标语义监督
- 自动生成 fine-grained captions
- 解决数据缺失
四、一句话研究总结
CLIP 的本质是“语义压缩器”,
而小目标检测需要“信息放大器”。
两者的矛盾,正是研究机会。
如果你愿意,下一步我可以直接帮你:
- 📌 设计一个 CLIP + 小目标检测的论文结构
- 📌 帮你模拟 ICCV / CVPR reviewer 的质疑
- 📌 给你一套 baseline + ablation 方案
你是偏 方法创新,还是 应用驱动(比如遥感 / 医学 / 工业缺陷)?
这个问题问得非常准,而且已经是**“我要把 CLIP 真正用到小目标检测里”的层次了。
我直接给你一个结论先行的回答,然后按方法类型 → 为什么适合 → 怎么接 CLIP**来系统拆解。
一句话结论(先给你站队)
最适合与 CLIP / 多模态模型联合的小目标检测方法,
不是“把检测器改得最强”的那一类,
而是:「强局部感知 + 明确区域表示 + 保留中间特征」的检测框架
换句话说:
👉 CLIP 要“接得上”,检测器要“说得清”
一、最适合 + CLIP 联合的三大方法类型(重点)
🟢 第一类(⭐最推荐):DETR 系列(Query-based)
代表
- Deformable DETR
- DINO / DN-DETR
- Dome-DETR
- PT-DETR
- SO-DETR
为什么它们「天生适合 CLIP」?
① Query = 天然“语义容器”
每一个 query 本质上就是:
“我在找一个可能的目标”
这和 CLIP 的文本 embedding 语义对齐方式高度一致:
Object Query ↔ Text Embedding
你可以自然地做:
- query-text 相似度
- open-vocabulary 分类
- phrase grounding
② 不依赖 anchor / proposal 语义
YOLO / Faster R-CNN 的问题是:
- 小目标没被 proposal 提出来 → CLIP 无能为力
而 DETR:
- query 可以主动关注小区域
- 特别适合 Dome-DETR 这类 density-aware query
👉 对小目标更“公平”
③ 中间特征可解释、可对齐
DETR 系列:
- region feature 明确
- decoder 层可以插语言
非常适合:
- region–token 对齐
- cross-attention
推荐搭配方式(研究友好)
Image → Backbone → Multi-scale Features
↓
DETR Queries
↓
CLIP Text Embeddings (open vocab)
↓
Similarity / Cross-Attention
📌 这是目前 open-vocab small object detection 的最优形态
🟢 第二类(⭐推荐):强 FPN / 多尺度增强检测器
代表
- HS-FPN
- BiFPN 改进
- 高分辨率 CNN + FPN
为什么适合 CLIP?
① 小目标靠“尺度”,不是靠语言
CLIP 的短板是:
- 不擅长发现小目标
FPN 的优势是:
- 保留小目标物理信息
👉 分工明确:
- FPN:找得到
- CLIP:叫得准
② region feature 稳定
FPN 输出的 region feature:
- 噪声更小
- 尺度信息明确
对 CLIP 来说:
- region embedding 更可靠
- 不容易被背景污染
推荐搭配方式(工程实用)
FPN → ROI Align → Region Feature
↓
CLIP Text Embedding
↓
Open-vocab Classification
📌 这是目前 工业界最常用、最稳 的方案
🟡 第三类(条件适合):SAM / Segment-first 方法
代表
- SAM + CLIP
- Segment Anything + Language
为什么对小目标有潜力?
- SAM 对 几何结构极敏感
- 对小目标 mask 有时比 detector 好
👉 CLIP 只做语义判别:
Mask → CLIP → Label
但要注意的坑
❌ SAM 对 tiny object 也不是稳定
❌ mask 数量巨大,CLIP 计算昂贵
❌ 对密集小目标容易崩
📌 更适合“少量小目标 + 开放语义”场景
二、不太适合和 CLIP 联合的(重要避坑)
🔴 YOLO 系列(端到端 one-stage)
为什么不理想?
- anchor / grid 语义弱
- 中间没有“干净的 region 表示”
- 很难插语言而不破坏训练
你能做的通常只是:
YOLO 找 → CLIP 分类
👉 研究空间小,创新点难
🔴 纯频域增强方法
- 频域对 CLIP 语义无直接帮助
- 更适合单模态视觉增强
三、把方法 × CLIP 的适配度直接列清楚
| 方法 | 小目标能力 | CLIP 适配度 | 研究潜力 |
|---|---|---|---|
| Dome-DETR | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| PT-DETR | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| SO-DETR | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Deformable DETR | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| HS-FPN + ROI | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| SAM + CLIP | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| YOLO 系列 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ |
四、如果你现在要“选一个方向发论文”
我会非常明确地建议你 👇
✅ 首选
Dome-DETR / Deformable DETR + CLIP
→ Scale-aware + Open-vocabulary Small Object Detection
这是:
- reviewer 友好
- CLIP 用得合理
- 小目标问题真实存在
次优但稳妥
FPN-based detector + CLIP
→ 工业 / UAV / 遥感应用导向
五、一句研究级总结
CLIP 不是“找目标”的模型,
但它是“解释目标”的最强工具。
小目标检测要成功,
必须先让模型“看清楚”,
再让 CLIP “说清楚”。
如果你愿意,下一步我可以直接帮你做三件事之一(都很具体):
1️⃣ 给你设计一个 DETR + CLIP 小目标检测完整 pipeline
2️⃣ 帮你写一个 论文 Method 部分的结构草稿
3️⃣ 从 reviewer 视角,列一份 “你一定会被问的 10 个问题”
你更想往 发论文,还是 工程落地 / demo 方向推进?
更多推荐
所有评论(0)