一、目前在什么岗位做什么?

目前在公司的AI数据与平台方向担任AI算法与数据负责人,核心职责主要有两块:

  • AI数据与平台方向:负责业务全链路数据的采集、清洗、标注、增强与回流,搭建支撑RAG、微调、Agents等场景的数据流水线与平台能力。这块工作让我深刻理解到——数据是AI的燃料,而高质量的数据管道是AI系统稳定运行的基础设施。
  • AI场景解决方案方向:与业务、产品、算法、后端团队紧密协作,从需求分析到技术选型、从模型评估到部署运维,做整体方案设计与落地。简单来说,我现在是一个偏工程的"AI数据/应用/算法杂交体"——既要懂工程落地,也要能和算法、产品对齐技术路线和评估指标。

这个角色的挑战在于:需要同时具备宏观的系统架构思维和微观的细节把控能力,而这正是我持续学习和进化的动力来源。


二、为什么学习多模态?

动机主要有三个层面:

  1. 补齐多模态认知的短板
    在此之前,我对文本处理、向量检索、RAG工程有一定的积累,但对图像、视频、语音等模态的理解比较碎片化。多模态是AI的下一个主战场——从CLIP到SAM,从扩散模型到VLA(视觉- 语言- 动作)模型,这一波技术浪潮已经深刻改变了AI应用的边界。我需要系统地理解不同模态的数据如何表征、如何对齐、如何融合、如何端到端训练。

  2. 拓宽技术视野,为下一代AI应用打基础
    公司业务正在从纯文本向多模态演进。OCR文档理解、视频内容分析、视觉问答、虚拟人交互……这些场景都需要多模态能力的支撑。通过学习我希望能把"多模态"从概念层面落到工程实践层面,让自己在未来的项目中具备技术决策能力。

  3. 职业升级:从应用层向系统层迈进
    过去几年,我做过RAG、做过Agent、做过数据平台,但更多是在"使用"多模态模型,而非"构建"和"优化"多模态系统。专门去系统新高度掌握并理解多模态模型的底层原理、训练策略、评估方法论,以及如何高效地部署和推理——这些是AI架构师必备的能力。


三、最大的收获

从"单模态应用者"升级为"多模态系统构建者"。

帮我把碎片化的多模态知识串成了一张完整的技术地图,从数据表征到模型架构,从训练优化到部署推理,从OCR到虚拟人生成
再到具身智能,每一块都有清晰的脉络和深度的理解。

具体收获,按模块拆解:

  1. 多模态基础与表征(Week5)

从多模态的定义与边界讲起,让我理解了模态是对齐世界的不同视角——文本、图像、语音、视频各有各的信息密度和表征方式。

  • 理解了对比学习(CLIP)如何实现跨模态对齐
  • 理解了多模态表征的几种主流范式:早期融合、晚期融合、混合融合
  • 理解了不同模态的任务类型:VQA、图像描述、视觉定位、跨模态检索等

以前看多模态论文总是似懂非懂,现在终于能顺着体系框架把知识点"归位"了。

  1. 虚拟人与生成技术(Week6)

这一周让我眼前一亮——虚拟人是多模态技术最酷的落地形态之一。

  • 理解了图像生成的条件控制机制:从DDPM到StableDiffusion的演进
  • 理解了虚拟人的大脑:大语言模型如何驱动数字人的对话与决策
  • 理解了语音合成(TTS)与情感表达的技术链条
  • 理解了口型驱动与视觉Transformer的结合

这块内容让我意识到:做一个好的虚拟人,不只是拼装几个模型,而是要在视觉、语音、语言三条线上做深度的工程协同。

  1. OCR与文档智能(Week7)

这周内容对我的工作直接有用——公司业务有大量文档处理需求。

  • 理解了从传统OCR到Transformer式OCR的范式转变

  • 理解了版面分析与表格结构解析的难点与解法

  • 理解了手写OCR与多语种OCR的特殊处理

  • 理解了OCR到翻译、RAG的完整链路

学完这周,我对自己负责的文档问答系统有了更清晰的技术选型思路——不是所有OCR都适用,要根据场景选技术。

  1. 视觉定位与跨模态融合(Week8)

这是多模态的"硬核"周:

  • 视觉问答(VQA)的技术演进:从CNN+Attention到Transformer
  • 视觉定位(Grounding)如何实现"指哪打哪"
  • 图像计数与视觉推理的难点
  • 跨模态融合策略:单流、双流、层次化融合

最让我印象深刻的是注意力机制的可视化——原来模型"看"图像的方式,和人类直觉很不一样。这对我理解模型行为、排查badcase有直接帮助。

  1. NL2SQL与复杂推理(Week9)

文本到SQL是企业级应用的高频需求:

  • 理解了Schema对齐与语义消歧的工程难点
  • 理解了不同技术路线的优缺点:规则驱动vs端到端模型
  • 理解了多表关联与复杂查询的拆解策略

NL2SQL不是"让模型直接写SQL"那么简单,背后需要对业务数据库有深刻的理解,加上精心的Prompt工程和后处理。

  1. 医疗影像与多模态诊断(Week10)

这是一扇了解垂直领域AI落地的窗口:

  • 理解了医疗影像的数据预处理与隐私合规要求
  • 理解了医学影像专用模型的设计思路
  • 理解了多模态融合在辅助诊断中的价值
  • 理解了医疗知识图谱如何与多模态模型结合

医疗AI的严谨性和合规性要求,让我对"做AI应用"这件事多了一层敬畏。

  1. 高效训练与分布式优化(Week11)
  • 理解了多模态数据对齐的挑战与策略

  • 理解了分布式并行的全栈技术:数据并行、模型并行、流水线并行

  • 理解了轻量化技术:量化、剪枝、蒸馏、LoRA

这部分内容让我意识到:多模态模型虽然强大,但训练成本极高——如何在有限资源下高效训练和部署,是工程落地的核心问题。

  1. 推理优化与部署(Week12)

推理优化是AI落地的最后一公里:

  • 理解了推理引擎的架构设计
  • 理解了显存调度与算子优化
  • 理解了vLLM等推理框架的原理与实战

公司在做模型部署时,这部分知识帮我少走了很多弯路。

  1. 具身智能与VLA模型(Week13)

这是多模态的下一个前沿:

  • 理解了VLA(Vision- Language- Action)模型的架构设计
  • 理解了仿真环境与数字孪生的构建方法
  • 理解了强化学习在具身智能中的应用

具身智能让我看到:多模态不是终点,让AI拥有"身体"、能够在物理世界中感知和行动,才是终极目标。

  1. 科研前沿与安全(Week14- 15)
  • 理解了世界模型的演进脉络
  • 理解了多模态安全的特殊机理:对抗攻击、跨模态注入
  • 理解了鲁棒性评估与工业界风控的实践

做AI应用,安全和合规是底线——这部分内容帮我建立了风险意识。


四、解决工作中的问题

解决了很多问题,而且体现在多个层面:

  1. 技术选型更有底气

以前遇到多模态需求,我更多是"先用了再说",缺乏系统性判断。现在面对一个需求,我会自然地拆解:

  • 这个任务是单模态还是多模态?
  • 需要融合哪些模态?融合策略怎么选?
  • 用预训练模型还是自己微调?
  • 训练成本和推理成本能不能接受?

这套思考框架直接复用,让我和算法团队的沟通更顺畅了。

  1. 数据平台设计更完善

关于数据对齐、多模态数据预处理、评估集设计的内容,帮我重新梳理了内部数据平台的架构:

  • 新增了多模态数据采集与清洗的流程规范
  • 新增了跨模态表征的存储与索引能力
  • 新增了多模态评估的指标体系

现在做RAG或Agent项目,我可以更系统地把"文本+图像+表格"的数据融合在一起,而不是各自为战。

  1. 项目交付质量更高

关于推理优化、部署运维、安全护栏的内容,让我做项目时更能预见风险:

  • 知道怎么评估模型的推理延迟和显存占用
  • 知道怎么设计fallback方案和限流策略
  • 知道怎么在输出端做内容安全审查

这些"工程化"的意识,让我在团队里更像是"能落地的算法桥梁人",而不是"只会调API的产品经理"。

  1. 职业定位更清晰

学完这门课,我的职业方向更明确了——往AI系统架构师发展。多模态是AI的下一个主战场,而我能同时理解数据、算法、工程、评估,这本身就是稀缺能力。


五、结语

毕业不是结束,而是新的开始。

多模态大模型是AI技术的下一个主战场——从静态的"读懂世界",到动态的"感知世界",再到具身的"改造世界",这条路还很长。

一段时间的投入,帮我装上了"多模态"的引擎,让我在未来的AI系统设计和项目中,能够更有底气地做出技术决策。

接下来的计划:

  1. 继续深化多模态方向的工程实践
  2. 尝试参与开源多模态项目
  3. 把所学沉淀到公司的AI平台和数据产品中
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐