最近已有不少大厂都在秋招宣讲了,也有一些在 Offer 发放阶段。

节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对新人如何快速入门算法岗、如何准备面试攻略、面试常考点、大模型项目落地经验分享等热门话题进行了深入的讨论。

总结链接:《算法岗面试宝典》重磅发布!

技术交流

在这里插入图片描述

喜欢本文记得收藏、关注、点赞


受星主邀约,给大家分享26届秋招字节大模型算法岗面经。

今年秋招参加了多场面试,面试就两招,一招抠细节,一招讲格局。

在整个面试阶段,我最担心的就是代码题,做不出来或者复杂度不满足条件的,或许就没有下一轮了。

有就业需求的同学,建议提前准备,欢迎与我沟通交流。

一面

  • 自我介绍和过往项目
  • 是否遇到过模型幻觉问题,怎么缓解大模型的幻觉问题?
  • transformer 是否熟悉,它与llama的LN有什么区别,手写RMSNorm
  • FFN有什么不同,写Relu和SwiGLU
  • BERT的预训练任务、embedding
  • 讲讲位置编码
  • 你认为好的prompt的范式是什么
  • 在LLM Agent的设计中,MCP和A2A协议分别是什么?它们试图解决什么问题,彼此之间是什么关系?
  • 你如何看待LLM Agent的“对齐税”(Alignment Tax)问题?
  • 大模型的后训练是怎么做的,在 VLM 上做后训练有什么区别
  • 手撕:两道easy

当天约面

二面

  • 介绍模型和项目
  • 为什么选 Qwen,Qwen 落地的实际效果怎么样?
  • Qwen 的模型结构是怎么样的,相比于 LLaMA,DeepSeek 有什么区别
  • 对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗?
  • 大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方,DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
  • 在实际项目中,RAG采用了哪些优化技巧?
  • 讲一下 RLHF 的流程,PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
  • 描述一下RAG是如何进行效果评分的吗?
  • 那么在生成环节,你是如何进行评估的呢?
  • 如何评估LLM
  • 训练LLM最大的困难是什么
  • 工具调用怎么实现
  • 了解 DeepSpeed 吗,ZeRO-1,ZeRO-2 和 ZeRO-3 分别做了哪些优化

面我1h,口干舌燥 当天约面

三面

  • 自我介绍
  • 论文考察
  • 问硬件、硬件利用率
  • 除了 DeepSpeed,在训练和推理的时候,显存不足还有什么优化方法吗,FlashAttention 具体是怎么做的?
  • 讲讲deepspeed几个阶段,分别分片什么、代价是什么
  • 模型训练时间如何评估
  • DPO 和 PPO 的区别
  • 讲一下 RLHF 的流程,PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
  • 最多用过多少张卡
  • 训练过程如何做模型监控
  • 数据配比怎么量化才是一个好的方案
  • 预训练和SFT如何评估
  • 讲一下文本输入大模型到输出的过程
  • 大模型结构有哪些变化
  • 手撕:cross-attention
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐