写给大模型新人的经验,刷到少走三年弯路!
不过这里我不禁要给各位泼一点冷水,在 AI 算法这个行业,三是很吃业务经验的,如果你之前本身就是做算法的,比如是做 NLP,又或者是做语音助手,对话机器人这类的,再顺水推舟做相关方向的大模型算法工程师,这是比较合适的。拿数据来说,先说通用的大模型训练,数据的来源,从哪里采,数据的质量怎么把控,如何过滤有毒信息,语言的筛选与比例,数据的去重,以及数据的规范化处理,评测集的构建。对于垂直领域,比如金融
本文详细解析了大模型领域的四大方向(数据、平台、应用、部署),指出新手常陷入"只关注算法应用"的误区,强调数据工程师是相对容易入行的选择。文章建议:新人不应只关注finetune等技术细节,而应专注于特定垂直领域;重视数据pipeline构建经验;大模型不仅需要算法也需要工程能力。对于转行大模型的新人,提供了清晰的职业路径规划和避坑指南。

这篇文章,我将结合自己在大模型领域的经验,给大家详细聊聊新人应该如何转行大模型赛道?
比如大模型都有哪些方向?各方向的能力要求和岗位匹配?新手转行大模型常踩的坑和常见的误区?以及入行大模型最顺滑的路径?
如果你是正打算入行大模型的校招/社招同学,请一定看完,可能会让你在入行大模型的路上,少走很多弯路。
01
大模型都有哪些方向?
如果你在求职网站搜索"大模型"关键词,看一下招聘 JD,基本可以了解现在业内对大模型工程师的需求方向和能力要求.。
总结一下,大致可以分为 4 类:
- 做数据的(大模型数据工程师,爬虫/清洗/ETL/Data Engine/Pipeline)
- 做平台的(大模型平台工程师,分布式训练/大模型集群/工程基建)
- 做应用的(大模型算法工程师,搜/广/推/对话机器人/AIGC)
- 做部署的(大模型部署工程师,推理加速/跨平台/端智能/嵌入式)
02
大部分新手的误区
如果是你,看到这几个方向,会怎么选?我估计很多人都直奔第三点去了,坚定的要做应用,走在所有工种的最前沿,做出让老板,用户都看得到的核心"产品"。
不过这里我不禁要给各位泼一点冷水,在 AI 算法这个行业,三是很吃业务经验的,如果你之前本身就是做算法的,比如是做 NLP,又或者是做语音助手,对话机器人这类的,再顺水推舟做相关方向的大模型算法工程师,这是比较合适的。
在自身业务里融入一些大模型的算法和技法,拿到实际的业务产出,去市面上也比较好找这类岗位。
但如果你是 CS 方向的实习生/应届毕业生,或者其他 IT 方向转行大模型,3 未必是一个最好的选择,大家不要带着一个误区:大模型算法工程师就是调模型,调超参,做一做预训练,做一做 finetune,SFT 之类的活。
实际上呢,这部分工作只有很少人做,基本一个 team 中只有个位数的人,或者只是算法工作的很小的一部分。
注意一点,新人进去 90% 以上都不可能直接让你干算法模型调优的活,大部分可能还是让你配环境,搭链路,清洗数据,分析数据,调研,写一写 function,tools。
这些体力活都干熟了以后,可能才会让你跑一些模型实验。其中比较出色的,脑子比较灵活的同学,才会慢慢让他们开始接触线上业务。
也有很多同学,干了好几年,还是在干一些边角料,脏活,杂活,根本接触不到核心业务。对于刚入行的新人,如果你学历背景好点,可以去大公司做 intern 然后转正,背景差一点,可以去中小公司,积累业务经验。
03
数据很重要!
然后很多人可能往往忽视了上面的 1,2,4,觉得我学了这么多算法知识,学了机器学习,深度学习,还了解大模型,再去做数据,有点屈才了。
但我想告诉你的是,1 是更多转行大模型同学更容易上岸的方式。条条大路通罗马,不是只有一条路走到黑。
首先,目前国外的大模型技术至少领先国内两年,虽然国内已经有几十上百个“大模型”了,但真正能打的并没有几个。探究原因,还是有很多技术没有突破。
算法本身来说,GPT 已经不是什么秘密了。那剩下还有什么呢,一是数据,二是工程技巧。
拿数据来说,先说通用的大模型训练,数据的来源,从哪里采,数据的质量怎么把控,如何过滤有毒信息,语言的筛选与比例,数据的去重,以及数据的规范化处理,评测集的构建。这些既是体力活,又是技术活。
对于垂直领域,比如金融,电商,法律,车企,这种领域数据的构建就更考验技术了,业务数据怎么来,数据不够怎么办,完全没有数据怎么办?如果构建高质量的微调数据?
能把这些问题解决好,模型也就成功了一大半。因此,就目前的现状,对于数据工程师,特别是有经验的数据工程师,是非常稀缺的。
04
大模型平台干些啥?
然后说下 2,大模型平台工程师。如果你之前是做工程的,或者对工程比较感兴趣,我比较建议你选 2。
这二者其实并没有本质的区别,都是为了大模型业务服务的,也叫大模型基础设施的建设,作用就是让大模型 train 得更好,大模型跑得更快。
这块主要是干些啥呢?
从计算层面来说,有分布式计算,并行计算,高性能计算,有些公司对这三者也不加区分。
从硬件层面来说,有搞大模型训练集群,GPU 集群,CPU/GPU 混部集群,池子里要管理几百上千张卡,还要负责他们的利用率,机器的健康状况,有没有挂的,中小公司这块基本都是开发和运维一体的,一个工作干两个工种的活。
从平台层面来说,有做 LLMOps 的,也就是 pipeline。集数据 IO,模型训练,预测,上线,监控于一体,这种就是跟着业务团队走,做适配,造很多高效的轮子,方面业务团队使用,减少他们额外重复开发的时间。
这块整体上来说,在大模型时代稳中有升,因为实际上很多公司这方面的人都是从之前搞深度学习平台,大规模机器学习平台的人招过来的,技术上的 gap 相对比较小。因此,对于 AI 工程感兴趣的,可以选这个方向。
05
大模型部署干些啥?
最后说一下 4,大模型部署工程师。这个岗位之前也有,不过在大模型这一两年尤其的火热。
什么原因呢?
因为部署大模型太费钱了。首先模型延迟本身就高,30B 以上的模型,对算力,显存要求很高。
老板关心什么?一方面是大模型产品,也就是业务指标要好看,方便 PR。另一方面也要求控制成本(大厂/独角兽除外)。
一般企业里面,一个 P8 级别的 leader,要在公司里面抢业务,拉资源,找人力,本身就是一个不容易的事。
“降本增效”是 23 年以来,几乎所有公司的一个主旋律。所以老板们很关心你节约了多少钱,比如你把推理效率提高一倍,那就实实在在降低了一倍的成本。
回到大模型部署工程师来,这个岗位总体有两个方向的工作:云端部署和端侧部署。
云端比较好理解,可以做推理加速平台,也可以随着业务走,做大模型定制化加速。
比如 Qwen-7b 的加速,还可以做大模型推理引擎,比如搜索/问答的推理引擎,一般是在高并发用户场景下,在保证用户 SLO 的前提下,最优化 latency 和 throughput。
另一个大方向是端侧的部署。也就是在消费级 GPU/NPU 以及边端设备下,部署大模型,同时让领域大模型小型化,让业务能实际工程落地。
总的来说,大模型部署工程师对工程能力,系统能力,以及硬件等方面都要有一定的了解,现在各种推理框架出来以后,降低了一点难度,但仍然是一个比较有竞争力的工种。
你得了解计算图和 OP 的优化,得了解各种推理框架,缓存/显存优化,还有 LLM 结构运行时的系统架构。这个岗位一般不推荐新人入场,因为太吃经验了。建议先从 2 进场,然后逐步转到 4。
06
总结
最后,给准备入场大模型的新人几点建议:
- 不要只关心 finetune,SFT,RLHF,作为系统性学习是 OK 的,切忌花太多精力。
- 想做应用的,建议 focus 到某个垂直领域,比如对话机器人,问答系统,金融/医疗/教育方向,找一个具体的场景,把它做好,做深。
- 多关心数据,data pipeline,高质量训练/测试集的构建经验,对数据的sense,是最直接,也是最适合用到未来工作当中的。
- 大模型不只有算法,也可以有工程。大公司拼的都是基建,平台是对业务的支撑,牛逼的 infrastrure 是大模型产品成功不可或缺的因素。
如果你也想系统学习AI大模型技术,想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习*_,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。
为了帮助大家打破壁垒,快速了解大模型核心技术原理,学习相关大模型技术。从原理出发真正入局大模型。在这里我和MoPaaS魔泊云联合梳理打造了系统大模型学习脉络,这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️

【大模型全套视频教程】
教程从当下的市场现状和趋势出发,分析各个岗位人才需求,带你充分了解自身情况,get 到适合自己的 AI 大模型入门学习路线。
从基础的 prompt 工程入手,逐步深入到 Agents,其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。
同时课程详细介绍了AI大模型技能图谱知识树,规划属于你自己的大模型学习路线,并且专门提前收集了大家对大模型常见的疑问,集中解答所有疑惑!

深耕 AI 领域技术专家带你快速入门大模型
跟着行业技术专家免费学习的机会非常难得,相信跟着学习下来能够对大模型有更加深刻的认知和理解,也能真正利用起大模型,从而“弯道超车”,实现职业跃迁!

【精选AI大模型权威PDF书籍/教程】
精心筛选的经典与前沿并重的电子书和教程合集,包含《深度学习》等一百多本书籍和讲义精要等材料。绝对是深入理解理论、夯实基础的不二之选。

【AI 大模型面试题 】
除了 AI 入门课程,我还给大家准备了非常全面的**「AI 大模型面试题」,**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。
【大厂 AI 岗位面经分享(92份)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

【640套 AI 大模型行业研究报告】

【AI大模型完整版学习路线图(2025版)】
明确学习方向,2025年 AI 要学什么,这一张图就够了!

👇👇点击下方卡片链接免费领取全部内容👇👇

抓住AI浪潮,重塑职业未来!
科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整,缩减部分传统岗位,同时AI相关技术岗位(尤其是大模型方向)需求激增,已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。
行业趋势洞察:
- 转型加速: 传统IT岗位面临转型压力,拥抱AI技术成为关键。
- 人才争夺战: 拥有3-5年经验、扎实AI技术功底和真实项目经验的工程师,在头部大厂及明星AI企业中的薪资竞争力显著提升(部分核心岗位可达较高水平)。
- 门槛提高: “具备AI项目实操经验”正迅速成为简历筛选的重要标准,预计未来1-2年将成为普遍门槛。
与其观望,不如行动!
面对变革,主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验,是抓住时代机遇、实现职业跃迁的关键一步。

01 为什么分享这份学习资料?
当前,我国在AI大模型领域的高质量人才供给仍显不足,行业亟需更多有志于此的专业力量加入。
因此,我们决定将这份精心整理的AI大模型学习资料,无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴!
我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题,也欢迎交流探讨,我们乐于分享所知。
*02 这份资料的价值在哪里?*
专业背书,系统构建:
-
本资料由我与MoPaaS魔泊云的鲁为民博士共同整理。鲁博士拥有清华大学学士和美国加州理工学院博士学位,在人工智能领域造诣深厚:
-
- 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇。
- 拥有多项中美发明专利。
- 荣获吴文俊人工智能科学技术奖(中国人工智能领域重要奖项)。
-
目前,我有幸与鲁博士共同进行人工智能相关研究。

内容实用,循序渐进:
-
资料体系化覆盖了从基础概念入门到核心技术进阶的知识点。
-
包含丰富的视频教程与实战项目案例,强调动手实践能力。
-
无论你是初探AI领域的新手,还是已有一定技术基础希望深入大模型的学习者,这份资料都能为你提供系统性的学习路径和宝贵的实践参考,助力你提升技术能力,向大模型相关岗位转型发展。



抓住机遇,开启你的AI学习之旅!

更多推荐



所有评论(0)