字节算法岗 offer 到手,有点小激动。。。
摘要:本文分享了26届秋招字节大模型算法岗的三轮面试经历,涵盖算法岗面试的核心要点。一面考察基础知识和代码能力,涉及Transformer结构、BERT预训练、LLM Agent设计等;二面深入项目细节,聚焦Qwen模型、MoE结构、RLHF流程等技术难点;三面侧重工程实践,讨论硬件优化、训练监控、数据配比等实际问题。文章为算法岗求职者提供了全面的面试准备参考,特别强调对大模型技术细节和工程落地的
·
最近已有不少大厂都在秋招宣讲了,也有一些在 Offer 发放阶段。
节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。
针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。
总结链接:《算法岗面试宝典》重磅发布!
技术交流

喜欢本文记得收藏、关注、点赞
受星主邀约,给大家分享26届秋招字节大模型算法岗面经。
今年秋招参加了多场面试,面试就两招,一招抠细节,一招讲格局。
在整个面试阶段,我最担心的就是代码题,做不出来或者复杂度不满足条件的,或许就没有下一轮了。
有就业需求的同学,建议提前准备,欢迎与我沟通交流。
一面
- 自我介绍和过往项目
- 是否遇到过模型幻觉问题,怎么缓解大模型的幻觉问题?
- transformer 是否熟悉,它与llama的LN有什么区别,手写RMSNorm
- FFN有什么不同,写Relu和SwiGLU
- BERT的预训练任务、embedding
- 讲讲位置编码
- 你认为好的prompt的范式是什么
- 在LLM Agent的设计中,MCP和A2A协议分别是什么?它们试图解决什么问题,彼此之间是什么关系?
- 你如何看待LLM Agent的“对齐税”(Alignment Tax)问题?
- 大模型的后训练是怎么做的,在 VLM 上做后训练有什么区别
- 手撕:两道easy
当天约面
二面
- 介绍模型和项目
- 为什么选 Qwen,Qwen 落地的实际效果怎么样?
- Qwen 的模型结构是怎么样的,相比于 LLaMA,DeepSeek 有什么区别
- 对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗?
- 大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方,DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
- 在实际项目中,RAG采用了哪些优化技巧?
- 讲一下 RLHF 的流程,PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
- 描述一下RAG是如何进行效果评分的吗?
- 那么在生成环节,你是如何进行评估的呢?
- 如何评估LLM
- 训练LLM最大的困难是什么
- 工具调用怎么实现
- 了解 DeepSpeed 吗,ZeRO-1,ZeRO-2 和 ZeRO-3 分别做了哪些优化
面我1h,口干舌燥 当天约面
三面
- 自我介绍
- 论文考察
- 问硬件、硬件利用率
- 除了 DeepSpeed,在训练和推理的时候,显存不足还有什么优化方法吗,FlashAttention 具体是怎么做的?
- 讲讲deepspeed几个阶段,分别分片什么、代价是什么
- 模型训练时间如何评估
- DPO 和 PPO 的区别
- 讲一下 RLHF 的流程,PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
- 最多用过多少张卡
- 训练过程如何做模型监控
- 数据配比怎么量化才是一个好的方案
- 预训练和SFT如何评估
- 讲一下文本输入大模型到输出的过程
- 大模型结构有哪些变化
- 手撕:cross-attention
更多推荐



所有评论(0)