为什么大模型公司疯狂招聘GPU Kernel工程师？CUDA技能仍不可替代

大模型时代GPU Kernel工程师的不可替代性分析摘要：文章探讨了在大模型时代GPU Kernel工程师的独特价值。尽管自动化工具不断发展，但仍无法完全替代手写Kernel的需求，主要原因包括：1）业务场景的多样性和极致性能需求，如超长序列Attention、MoE结构等需要定制化算子优化；2）硬件生态碎片化，不同芯片架构需要专属Kernel适配；3）低精度计算等特殊场景的精度把控需求。CU

程序员小猴紫

99人浏览 · 2026-02-02 23:22:19

程序员小猴紫 · 2026-02-02 23:22:19 发布

文章分析了大模型时代GPU Kernel工程师的不可替代性。尽管自动化工具声称能替代手写Kernel，但仍无法覆盖业务场景的多样性和极致性能需求。LLM时代，超长序列Attention、MoE结构等需要定制化算子优化，Kernel工程师能解决复杂工程问题、评估优化空间。CUDA技能仍是AI就业市场的必备基本功，但还需结合特定项目经验和模型部署能力。芯片公司对此类人才需求尤其大，就业前景广阔。

标题的两个问题来自于某乎，本人近期在某乎上回答了这俩问题，在此也分享给大家。

先回答第二个问题

一句话归总：招聘GPU kernel engineer的动机在于，自动化工具与通用库声称的普适性始终无法覆盖业务场景的极致性与多样性，这适用于任何一家招聘此岗位的公司，互联网、芯片、车企等等

以下是详细解释：

自动化工具替代手写kernel这事儿吧，真的嚷嚷挺久了，但替代不了啊，2012年前后，MIT开发的Halide就已开创算法与调度分离的思路，后续的TensorRT、TF-XLA等也延续了这一方向，陈天奇在2018年发表的TVM/autoTVM将Halide思想从传统图像处理扩展到深度学习，降低了深度学习领域算子优化的门槛，试图通过autoTVM/autoschedule生成高效算子，在它的某乎文章<<AutoTVM：让AI来编译优化AI系统底层算子>>中有详细解释，值得一提的是，autoschedule的作者还是现在sglang的核心owner zhenglianmin，届时各大公司也相继开始制作针对自家模型的编译器，以节约算子开发的人力，那个时候就开始嚷嚷要取代手写的了，但是始终未能实现全场景替代手写Kernel，更多地是与手写kernel相结合，以实现最佳性能，比如TVM不是开放了一个BYOC的接口吗，cutlass，tensorrt什么的都去接入了。

2023年LLM爆发后，算子集合看似收敛到gemm、attention等有限类型，大家一度觉得，哎，我又行了，觉得通用库足够覆盖，但实际优化压力集中到了更极致的定制化上，比如LLM的超长序列Attention、MoE结构的专家并行算子，cutlass等通用库的默认实现往往无法匹配业务性能需求，有时需要自定义epilogue，需要扩展粒度等等。

到现在2026年，历史总是相似的，自动化工具又来了一堆新玩具，比如AI Agent生成Kernel，但仍处于各家公司的demo阶段，开源工作少之又少，但我相信仍然是辅助优化而非100%依赖AI agent独立完成，我觉得它依然更像是一种减少工程师的重复劳动的重要工具，而非取代工程师的经验，而且这里依然有很多需要Kernel engineer来解决的工程问题，需要工程师判断性能瓶颈，评估优化空间，不招懂Kernel的人，连生成的代码好不好用都不造。

另一方面，Kernel并非单一维度的代码，而是数据精度、融合策略、内存布局、硬件适配、模型特性等多维度的组合体，这种组合的复杂度远超自动化工具的覆盖范围，理想是美好的，现实是骨感的

且当前硬件生态呈现碎片化，你的题目貌似只提到了cuda，但是世上并不只是达子一家铲子，也不止cuda一套生态系统，即使号称cuda兼容的amd rocm，也存在API兼容不全、性能表现不一致的问题，hipfy转化不靠谱支持不全的问题（这不Claude code帮AMD不是打了一波工吗? 见某乎文章: <<CUDA要凉？Claude 30分钟铲平英伟达护城河，AMD要笑醒了>>，有一说一，这标题取得也是有关注度的），所以必须靠手写Kernel补全适配、优化性能。对于国产GPU（如摩尔、壁仞）的指令集、编程模型与cuda差异显著，更需要专属Kernel团队打造基础能力；壁仞BR100是自研芯片架构与指令集，缺乏cuda生态的天然支持。这类国产硬件显然无法直接复用达子生态的成熟算子库，所以不得不依赖专属kernel团队从基础算子（如自定义gemm、attention）到上层业务算子全链路打通，搭建适配自身硬件的算子体系，才能支撑模型落地。边缘端设备（如risc-v架构芯片）、异构计算场景（如CPU+FPGA、CPU+ASIC组合）那更加是属于典型的非cuda路线了，这类场景不仅硬件架构多样，且受限于功耗、算力、内存资源，手写Kernel成为实现功能、榨干有限硬件性能的核心，那必然是要大量招人了。

再说业务场景，如今通用库（如你提到的cutlass、cublas）虽然支持很多shape+很多内存布局的场景，但实际业务非标准shape、动态shape、自定义内存布局的workload（比如推荐系统的稀疏算子）多了去了，这些场景下自动化工具的调度策略容易gg，必须靠工程师手工调优内存访问、算子融合逻辑等等来榨干硬件性能。

还有现在流行的各种低精度**，**从FP32到FP16、FP8、int8，再到int4/fp4等低精度量化，每种精度的Kernel实现都需要兼顾性能与精度正确性；通用库真的适配不完，需要工程师定制开发，当然开发了以后可能集成到通用库里面去或者基于通用库的code base作二次开发，以及确保精度偏差正常，这个是以编译器和agent为代表的自动化工具较难精准把控的工作。

这不，DeepSeek v4不是要出来了吗？去年的MLA、FP8 Blocked GEMM、EP-MoE就已经各各大公司折腾了，这些算子在通用库中没有现成实现，需要重新现写，设计各种融合策略和内存访问模式balabala，今年我估计春节前后又有一堆人要xxxx了

哦对了，我还说漏了一点，即使是达子，那他迭代硬件的速度也快啊，每一代的架构都有或大或小的差异，blackwell上也没法跑hopper定制的算子啊，都得去适配。而且，国产芯片也在快速迭代中。

所以，流水的自动化工具，铁打的手写kernel engineer

再来看第一个问题

这个问题提的比较早了，貌似是17年，当时CUDA在AI上的应用并不广泛，多数还是用于传统HPC和游戏领域，这是题主在这个背景下提出的这个问题，2026年再回过头来看这个问题，就业情况已经发生了很大变化，2020年前，CUDA在AI上的就业确实尚未爆发，所以很多2020年前的回答多数聚焦在CUDA应用于传统HPC领域。

现在来看的话，会CUDA是现在AI推理或者AI infra就业市场上非常看重的一点，甚至我都觉得是必需项了，即使像很多答主所说，实际工作中，纯手写CUDA用处不大了，多数要依靠各个领域特定编程语言(DSL)或脚手架或库，但是面试的话，依然会考察CUDA能力尤其是对CUDA和硬件架构的cowork重点理解，这个是基本功，即便DSL和新硬件再怎么变化，基本功一直在那里不会变，你要工作首先得先通过面试不是。

但是话又说回来，几位答主说的特别好，会以上所讲的CUDA能力也不够，现在的就业市场对CUDA的要求只是一方面，你还需要在CUDA之外了解基于CUDA或者类CUDA的流行项目，比如cutlass，flashinfer，thunderkittens，attention系列CUDA项目，基于CUDA的通信算子系列，当然全部了解不现实，熟悉1到2个我认为足够，熟悉是指要讲出来60%以上，以及基于它做过一些或大或小的扩展，或者合入几个PR，不过一些中小公司也不会要求你实际动手过，能讲出来已经不错。另外，模型部署或优化层面的经历也需要，CUDA只是工具，要最终落地到模型部署上面来才是正儿八经的KPI，现在面试都流行造火箭，CUDA单个技能已经不太能作为就业的唯一钥匙。

再从需求上来说，这个方向的圈子不大，能去的公司在cuda目前就业情况怎样？ - 知乎回答中已经较为完备，招人的数量从我的视角来看，约面的一大堆，抛开约面公司的headcount多少，至少工作机会还是不少的，芯片公司的需求尤其大

如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

请添加图片描述
第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Lighthouse安全组自动化审计与加固：基于MCP协议的智能运维实践

本文介绍了一个简易版网络资源监控器的Rust实现方案。该系统通过读取配置文件中的URL列表，定期发送HTTP请求来监测网站可用性，记录响应时间和状态码，并在网站不可达时发出告警。系统采用reqwest库进行异步HTTP请求，tokio处理异步运行时，clap解析命令行参数，csv库存储监控结果到文件。实现过程包括：1)单个网站监测函数；2)读取监控列表；3)异步定时监控模块；4)CSV日志记录功能

2048 AI社区

前后端分离校园资产管理系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

2048 AI社区

Spring Bean介绍（被Spring IoC容器创建、装配、管理的Java对象）IoC容器、控制反转（IoC）、依赖注入（DI）、循环依赖

Spring Bean = 被Spring IoC容器创建、装配、管理的Java对象。IoC容器（Inversion of Control Container）是Spring框架的核心引擎，负责创建、组装、管理所有Bean，并将“控制权”从开发者手中“反转”交给框架。它不一定是“JavaBean”（无参构造+getter/setter），而是一个生命周期由Spring全权负责的对象。你可以把Spr