当传统机器学习的思维宫殿开始震动,从DeepSeek席卷而来的大模型浪潮,不仅改变了AI界的技术版图,也重塑着每一位技术人的知识边界。

本文所引用的所有文章,均为本人 2025 年内的原创文章。由于篇幅所限,仅引用少量文章作为代表。

DeepSeek在2025年1月引发的技术风暴,几乎在一夜之间成为了无数开发者生活与工作的“标配”。这一年,大模型技术完成了从直觉匹配到系统推理的范式跃迁

在这场变革中,我——一名经历传统机器学习洗礼的技术人,亲历了技术赛道的切换,并以超过170篇大模型相关的深度技术文章,记录下这场变革背后的核心逻辑与工程智慧。

01 赛道的抉择:从传统机器学习的“宫殿”走向大模型的“浪潮”

在2025年初,当DeepSeek以其开源模型V3和可解释的“思考过程可视化”功能在技术社区爆红时,我意识到一个技术拐点已经到来。

这种爆发并非凭空而来,它标志着AI应用正从少数研究者的实验室走向普通开发者的日常工作。DeepSeek的破圈,本质上是AI技术平民化的必然结果。

传统的机器学习技术,聚焦于特征工程、算法优化和参数调优,是一个构建“认知宫殿”的过程。然而,大模型的出现,特别是以Transformer为核心架构的模型,带来了全新的技术范式。

根据《2024年轻人AI使用趋势报告》,超过八成的技术人群对AI工具保持高度关注。而2025年,大模型技术的演进呈现出三条清晰的脉络:从直觉走向逻辑的认知深化、从语言到物理空间的维度突破,以及从暴力美学到性价比的效率重构。

正是这样的技术演进方向,促使我决定全面切换赛道,从传统机器学习转向大模型技术原理与架构创新的深度解析。

02 技术深潜:解构大模型的核心原理系列文章

我的技术切换并非简单的主题变更,而是系统性的知识重构。我选择从大模型最基础也最核心的技术原理入手,完成了一系列技术深潜。

大模型的训练离不开 GPU。既然提到 GPU,就离不开需要多少显存的问题,需要采用什么样设备的问题。我从最基本的认知升级开始创作,对于大模型需要先具备一个正确的认知。(扩展阅读:关于大模型的认知升级聊聊 GPU 与 CPU的那些事个人开发者选 GPU 的简单方案学习大模型,到底要学什么?MacBook Pro M4 Max vs. RTX 4090/5090笔记本:个人开发者如何选择大模型训练推理设备?大模型训练与推理显卡全指南:从硬件选型到性能优化大模型训练与推理显卡全指南:从个人开发者到企业级解决方案大模型时代,机器学习基础是“屠龙技”还是“必修课”?

注意力机制的计算奥秘是我开启这个系列的核心文章。我详细解析了自注意力机制中Query、Key、Value矩阵的交互过程,以及缩放点积注意力如何实现长距离依赖的捕捉。纵观全网,以一个简单的计算案例,完整呈现注意力机制的每一步计算过程,我可能是第一人。(扩展阅读:来聊聊Q、K、V的计算初探注意力机制Transformer 中的注意力机制很优秀吗?

我特别关注了门控注意力机制在长文本处理中的应用,这一技术被NeurIPS 2025最佳论文提出,能够显著提升模型在复杂任务中的稳定性。(扩展阅读:突破Transformer极限:Megalodon架构如何实现无限上下文建模的革命

基于人类反馈的强化学习(RLHF)是大模型对齐人类价值观的关键技术。在相关文章中,我系统梳理了RLHF的技术框架:从奖励模型训练、到基于人类反馈的强化学习,再到直接偏好优化(DPO)等变种方法。(扩展阅读:化解对齐税:RLHF对齐过程中的模型平均化创新方法RLHF:大模型价值观对齐的关键技术演进与实践大模型偏好对齐强化学习技术:从PPO、GRPO到DPO的演进与创新ORPO:颠覆传统,偏好对齐的简约革命

一系列文章还详细分析了DeepSeek模型如何通过强化学习显著提升复杂推理能力,同时探讨了RLHF在实际应用中面临的挑战,如“翘翘板效应”(某些能力增强导致其他能力减弱)。

通过这些基础原理文章的写作,我不仅重新构建了自己的技术知识体系,也为广大开发者提供了系统学习大模型技术的路线图。(扩展阅读:大模型时代的学习图谱:从理论到实践的体系化指南解构大模型:从芯片到Chatbot的全栈技术图谱

03 前沿追踪:聚焦2025年大模型架构创新

随着对大模型基础原理的深入理解,我的写作重点自然转向了2025年最引人注目的架构创新

在《超越规模:Ilya Sutskever与AI研究新时代的架构革命》一文中,我深入分析了规模定律(Scaling Law)面临的挑战以及大模型发展的独特路径。与单纯堆参数不同,未来的大模型需要更加注重单位参数内的“智能密度” 提升。

根据面壁智能刘知远教授提出的“密度法则”,这一规律类似于芯片摩尔定律,预示着未来算力格局将是“云端负责规划,端侧负责执行”。(扩展阅读:4Bit NormalFloat量化技术:大模型高效部署的突破性创新

针对2025年大模型发展的三条脉络,我分别撰写了专题文章:

04 创作脉络:两大领域,三个层次的年度输出

回顾2025年的创作历程,我的文章主要围绕大模型技术原理架构创新两大核心领域展开,形成了由浅入深、由基础到前沿的清晰脉络。

在大模型技术原理领域,我完成了三个层次的系列文章:

在架构创新领域,我沉淀总结了最热门最实用的三个技术方向:

2025年,全年累计完成超310篇高质量(CSDN文章平均质量分:95 分)技术文章。这些文章在CSDN平台累计获得超过55万阅读量,被收藏及点赞1.5万余次,形成了完整的大模型及架构技术知识体系。

05 创作革新:AI辅助写作的实践与思考

在写作过程中,我也积极拥抱AI技术带来的创作革新。CSDN推出的 AI 助手为技术写作提供了革命性工具。

通过 AI 助手,我能够快速构建文章大纲和核心段落;代码辅助增强功能确保文中的代码示例准确规范;学习辅助工具则帮助我快速理解复杂技术概念。这些工具不仅提升了我的创作效率,也显著改善了文章的结构性和可读性。

我也清晰认识到AI工具的局限性。如复旦大学张军平教授指出的,当前AI有时会“一本正经地胡说八道”,且不愿承认错误。(扩展阅读:幻觉与模仿:深入剖析当前大语言模型为何未能跨越“理解”与“推理”的鸿沟幻象克星:大模型架构创新与对抗幻觉的深度博弈大模型幻觉问题的深度解析与架构设计解决方案AI代码生成不等于研发提效:大模型时代的效率幻觉与技术债务危机

因此,在我的写作流程中,AI始终是辅助工具而非决策主体——所有的技术判断、逻辑推理和观点形成,仍然来自于我的专业积累和批判性思考。

06 个人突破:从知识消费者到思想贡献者的转变

2025年的大模型浪潮,带给我的不仅是技术知识的更新,更是认知框架的重塑和创作定位的转变。

最根本的突破在于思维模式的升级。传统机器学习强调特征工程的精巧和模型参数的精细调优,而大模型时代更注重对数据分布的理解、对计算资源的统筹以及对人类反馈的响应。

其次,我的写作重心主要围绕“如何理解系统”。过去,我可能更多介绍某个库的函数调用或某个算法的实现技巧;而现在,我更关注技术背后的设计思想、不同架构的权衡取舍以及技术演进的未来方向。(扩展阅读:人工智能发展新范式:算法、算力与数据的三位一体驱动

最具挑战性也最有价值的突破,是我开始形成自己的技术判断框架。面对大模型领域日新月异的发展,我不再满足于简单翻译技术论文或复述专家观点,而是尝试基于第一性原理,分析不同技术路径的优劣,预测行业发展趋势。

例如,在分析2025年大模型“护城河”时,我基于峰瑞资本投资合伙人陈石提出的三层结构(算力、能力、生态),结合自己的观察,提出了针对中小型团队的四阶段发展路径建议,得到了读者社区的积极反馈。

07 未来展望:站在新范式起点的思考

随着2025年接近尾声,大模型技术的发展已经进入一个全新阶段。从“文本生成”到“复杂决策”的范式跃迁正在深刻改变AI的能力边界。

对于像我这样的技术人而言,这意味着我们正站在一个新范式的起点上。

未来,我的创作将沿着四个方向继续深化:一是继续追踪大模型技术的前沿进展,特别是在多模态理解、强化学习和世界模型等领域;二是加强产业落地的案例分析,探寻大模型在不同行业的应用模式和商业价值;三是探索更高效的技术传播方式,利用AI工具提升创作效率的同时,保持内容的深度和原创性;四是继续分享后端技术架构的经验和实践,为架构选型做好理论铺垫。

我也计划将2025年的系列文章进行系统整理,形成更结构化的知识体系,为更多正在切换赛道的开发者提供学习路径参考。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐