字节算法岗 offer 到手，有点小激动。。。

摘要：本文分享了26届秋招字节大模型算法岗的三轮面试经历，涵盖算法岗面试的核心要点。一面考察基础知识和代码能力，涉及Transformer结构、BERT预训练、LLM Agent设计等；二面深入项目细节，聚焦Qwen模型、MoE结构、RLHF流程等技术难点；三面侧重工程实践，讨论硬件优化、训练监控、数据配比等实际问题。文章为算法岗求职者提供了全面的面试准备参考，特别强调对大模型技术细节和工程落地的

我爱Python数据挖掘

709人浏览 · 2025-12-10 09:14:52

我爱Python数据挖掘 · 2025-12-10 09:14:52 发布

最近已有不少大厂都在秋招宣讲了，也有一些在 Offer 发放阶段。

节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。

总结链接：《算法岗面试宝典》重磅发布！

技术交流

在这里插入图片描述

喜欢本文记得收藏、关注、点赞

受星主邀约，给大家分享26届秋招字节大模型算法岗面经。

今年秋招参加了多场面试，面试就两招，一招抠细节，一招讲格局。

在整个面试阶段，我最担心的就是代码题，做不出来或者复杂度不满足条件的，或许就没有下一轮了。

有就业需求的同学，建议提前准备，欢迎与我沟通交流。

一面

自我介绍和过往项目
是否遇到过模型幻觉问题，怎么缓解大模型的幻觉问题？
transformer 是否熟悉，它与llama的LN有什么区别，手写RMSNorm
FFN有什么不同，写Relu和SwiGLU
BERT的预训练任务、embedding
讲讲位置编码
你认为好的prompt的范式是什么
在LLM Agent的设计中，MCP和A2A协议分别是什么？它们试图解决什么问题，彼此之间是什么关系？
你如何看待LLM Agent的“对齐税”（Alignment Tax）问题？
大模型的后训练是怎么做的，在 VLM 上做后训练有什么区别
手撕：两道easy

当天约面

二面

介绍模型和项目
为什么选 Qwen，Qwen 落地的实际效果怎么样？
Qwen 的模型结构是怎么样的，相比于 LLaMA，DeepSeek 有什么区别
对于超长上下文业界一般是怎么做的，你知道 Qwen 是怎么做的吗？
大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方，DeepSeekMoE 为什么效果好，有什么值得我们借鉴创新点
在实际项目中，RAG采用了哪些优化技巧？
讲一下 RLHF 的流程，PPO 和 DPO 算法是什么思想，写一下 PPO 和 DPO 的 Loss 表达式
描述一下RAG是如何进行效果评分的吗？
那么在生成环节，你是如何进行评估的呢？
如何评估LLM
训练LLM最大的困难是什么
工具调用怎么实现
了解 DeepSpeed 吗，ZeRO-1，ZeRO-2 和 ZeRO-3 分别做了哪些优化

面我1h，口干舌燥当天约面

三面

自我介绍
论文考察
问硬件、硬件利用率
除了 DeepSpeed，在训练和推理的时候，显存不足还有什么优化方法吗，FlashAttention 具体是怎么做的？
讲讲deepspeed几个阶段，分别分片什么、代价是什么
模型训练时间如何评估
DPO 和 PPO 的区别
讲一下 RLHF 的流程，PPO 和 DPO 算法是什么思想，写一下 PPO 和 DPO 的 Loss 表达式
最多用过多少张卡
训练过程如何做模型监控
数据配比怎么量化才是一个好的方案
预训练和SFT如何评估
讲一下文本输入大模型到输出的过程
大模型结构有哪些变化
手撕：cross-attention

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

Token到底是个啥？看完这篇终于懂了（附计算工具）

cover

Claude Code 长期任务为何越跑越慢？Anthropic 工程师揭秘：Compact 不是解药，这套工程方案才是

cover

AI 编程：自动化代码生成、低代码 / 无代码开发、算法优化实践

所有评论(0)

查看更多评论

我爱Python数据挖掘

@weixin_38037405

已为社区贡献39条内容