基础设施即代码:自动化如何演进以支持AI工作负载
基础设施即代码(IaC)正在向AI驱动方向演进,2025年迎来多项重大创新。HashiCorp推出Project Infragraph实现基础设施自主行动,Terraform Stacks简化多环境部署。Pulumi发布AI代理Neo,支持渐进式自动化管理。Formae平台采用无状态架构,解决传统IaC的漂移问题。这些变革主要源于AI工作负载的特殊需求,如大规模GPU集群管理和PB级数据处理。尽管
简简单单 Online zuozuo :本心、输入输出、结果
文章目录
基础设施即代码:自动化如何演进以支持AI工作负载
编辑 | 简简单单 Online zuozuo
地址 | https://blog.csdn.net/qq_15071263
如果觉得本文对你有帮助,欢迎点赞、收藏、评论,谢谢
前言
基础设施即代码(IaC)是我自动化基础设施配置的好伙伴。最近几个月,我在周末阅读中遇到了几个令人兴奋的公告:HashiConf 2025、Pulumi的新AI功能,以及一个名为Formae的革命性平台。
基础设施即代码已经改变了我们管理云资源的方式,而2025年带来的创新从根本上改变了游戏规则。从编写和部署基础设施代码的AI驱动代理,到能够观察自身状态并自主行动的基础设施,我们正在见证一个新时代的开启。
#基础设施即代码 #IaC #AI基础设施 #自动化 #Terraform #Pulumi #云原生 #DevOps

1、IaC的现状:我们今天的处境
在深入了解具体工具和公告之前,让我们先了解当前的格局。根据《IaC 2025状态报告》,65%的组织云复杂性有所增长。只有6%的组织实现了完全代码化。
报告清楚地表明,手动配置已经过时。声明式配置文件是标准做法。自动化优先的管道已成为黄金标准,基础设施变更通过代码审查、测试和自动化部署流程进行管理。

2、HashiConf 2025:重要的重大公告
2025年9月,HashiConf在旧金山庆祝了其10周年纪念。现在作为IBM一部分的HashiCorp发布了几个引起我注意的公告。
Project Infragraph:实时基础设施智能
Project Infragraph代表了基础设施可观测性的根本性转变。团队不再需要从多个监控工具中拼凑数据,而是获得一个统一视图,能够理解资源之间的关系和依赖关系。
Project Infragraph使基础设施能够观察自身状态、推理最优配置并自主行动。私有测试版于2025年12月推出。
Terraform Stacks:正式发布
经过数月的公开测试,Terraform Stacks正式发布,提供了向后兼容的API。这个概念解决了我无数次遇到的痛点:跨多个环境协调部署。
Stacks使用基于组件的架构。配置现在使用.tfcomponent.hcl扩展名而不是.tfstack.hcl,提供了标准化的命名约定。部署组支持新的编排规则,以便更好地控制部署顺序和依赖关系。
以前需要仔细编排和多个部署窗口的操作,现在只需一个操作即可完成。Terraform自动处理编排、依赖解析和变更传播。
MCP服务器:连接AI和基础设施
HashiConf为Terraform、Vault和Vault Radar引入了模型上下文协议(MCP)服务器。这些MCP服务器充当AI代理和现有基础设施工具之间的桥梁。
现在,你可以告诉AI助手触发工作空间运行、查询密钥或发现未管理的资源,而无需切换上下文或编写复杂的脚本。这大大减少了AI代理与基础设施工具之间的摩擦。
其他值得注意的功能
HashiConf还宣布了其他几个达到正式发布状态的功能。Terraform Search帮助团队更高效地批量发现和导入资源。Azure Copilot与Terraform集成,使开发者能够通过自然语言与基础设施交互。

3、Pulumi Neo:AI驱动的基础设施代理
虽然Terraform继续其市场主导地位,但Pulumi凭借其AI基础设施代理Neo掀起了波澜。在经历了Terraform的漫长旅程后,当HCL2出现时,我开始探索替代方案。
为什么Pulumi很重要
Pulumi是一个现代的基础设施即代码平台,使开发者能够使用熟悉的编程语言(而不是领域特定语言)创建、部署和管理云资源。与Terraform的HCL相比,Pulumi支持TypeScript、Python、Go和C#等语言,为开发者提供了更大的灵活性和表达能力。
Neo:AI基础设施代理
Neo代表了Pulumi对"速度陷阱"的回应,即AI编码助手使开发者更快,但基础设施团队跟不上。
Neo提供渐进式自主权。开发环境可能允许完全自主操作,如每日垃圾清理和每周漂移协调。生产变更可能需要人工批准,但Neo可以处理日常操作任务,大大减轻基础设施团队的负担。

4、Formae:重新思考IaC的基础
2025年10月,Platform Engineering Lab推出了Formae,挑战了关于IaC应该如何工作的基本假设。让我们了解它如何使用PKL并引入无状态方法。
Formae解决的问题
状态文件损坏和漂移检测一直困扰着基础设施团队。你知道这个场景:有人在控制台进行了手动更改,你的Terraform状态漂移了,现在你陷入了困境。
传统的IaC工具需要通过痛苦的手动过程导入现有资源,维护有损坏风险的状态文件,被动地检测漂移,并手动协调控制台中的更改。
元结构:一个新概念
Formae引入了"元结构"(Metastructure),它将基础设施配置与操作逻辑相结合。传统的IaC使用静态配置和计划的状态文件,需要手动导入,执行计划,然后应用。Formae使用PKL(Pkl)配置语言,将配置与运行时逻辑结合在一起。
棕地环境
Formae在需要代码管理的现有基础设施的棕地环境中表现出色。对于现有的AWS资源,传统方法需要手动导入每个资源,而Formae可以自动发现和编码现有基础设施,消除了痛苦的导入过程。

5、AI基础设施配置:驱动力
2025年IaC的大部分创新来自一个驱动力:大规模配置和管理AI基础设施。训练前沿AI模型需要传统部署无法比拟的协调能力。
AI基础设施的挑战
你正在处理跨数千个CPU核心的PB级数据准备。运行数月的巨大GPU集群。检查点管理,如果你没有正确保存检查点,可能会失去数小时的训练。
传统应用程序使用基于CPU的计算,运行几分钟到几小时,处理GB级数据,使用标准重试逻辑进行容错,具有可预测的成本,并水平扩展。AI训练基础设施完全不同:它需要GPU/TPU集群,运行数周甚至数月,处理PB级数据,需要复杂的检查点和恢复逻辑,成本可能非常高昂,并且需要垂直和水平扩展。
如果你对处理单元世界不熟悉,可以在这篇文章中了解CPU vs GPU vs TPU。
使用Pulumi配置GPU训练环境的示例展示了如何管理这些复杂的资源需求。

6、平台工程:抽象层
平台工程作为一门学科出现,提供自助式基础设施目录。开发者不需要直接学习Terraform或Pulumi,而是为常见用例选择预构建的模板。
平台工程堆栈由多个协同工作的层组成。自助服务门户层使用Backstage、Port和Humanitec等工具提供开发者界面。IaC层使用Terraform、Pulumi或其他工具来实际配置资源。
开发者可以使用自助服务数据库模板,而无需了解RDS的细节。平台工程团队负责底层复杂性,开发者只需选择他们需要的资源类型和配置。

7、AI时代的安全与合规
随着AI工具生成比以往更多的基础设施代码,安全验证变得至关重要。Google报告称,其25%的新代码来自AI,这使得自动化安全验证成为必需。
基本的安全工具包括用于错误配置静态分析的Checkov、用于Terraform特定安全扫描的tfsec、用于策略即代码安全的TerraScan,以及用于运行时策略执行的OPA。
配置Checkov的示例展示了如何将安全扫描集成到基础设施代码仓库中,确保AI生成的代码符合安全最佳实践。

8、综合比较、挑战与未来展望
综合IaC平台比较
OpenTofu是在HashiCorp许可证变更后创建的开源分支,在2025年继续在Linux基金会下获得关注。组织赞赏拥有一个社区驱动的替代方案。
Terraform使用商业源代码许可证,这是专有的,而OpenTofu使用Mozilla公共许可证2.0。治理差异显著:Terraform由HashiCorp控制,现在是IBM的一部分,而OpenTofu由Linux基金会管理,采用社区驱动的治理模式。
Terragrunt还在2025年5月宣布其自己的Stacks功能达到正式发布状态,为OpenTofu生态系统中的团队提供编排功能。Gruntwork通过广泛的社区反馈构建了Terragrunt Stacks。
在探索了2025年的主要发展之后,这里是对领先IaC平台的全面比较:
- Terraform:市场领导者,拥有最大的生态系统和社区支持。现在由IBM拥有,提供企业级支持。
- Pulumi:现代方法,使用通用编程语言,AI代理Neo提供智能自动化。
- OpenTofu:Terraform的开源替代方案,社区驱动,向后兼容。
- Formae:革命性方法,无状态架构,自动发现和编码现有基础设施。
仍然存在的挑战
尽管取得了进展,但重大挑战仍然存在。只有6%的组织实现了完全代码化。配置漂移继续困扰团队。多云复杂性影响65%的组织。人为因素仍然是一个关键瓶颈,即使有了AI工具,也需要熟练的基础设施工程师来设计和维护系统。
未来展望
基础设施社区正处于一个转折点。手动配置已经过时。下一个前沿涉及能够观察自身状态、推理最优配置并自主行动的基础设施。
Project Infragraph代表了这一未来。AI代理将推理基础设施状态并在应用程序生命周期中采取行动。这些代理不会取代基础设施工程师,但它们将大大增强他们的能力,使他们能够专注于战略决策而不是日常操作任务。
随着2025年的结束,有一件事似乎是确定的:基础设施自动化只会加速。拥抱这些工具、投资平台工程、在保持安全的同时利用AI的组织,将在未来几年获得竞争优势。
基础设施已经成为代码。现在代码正在变得智能。
生如逆旅,一苇以航
我们应该静下心来,放下浮躁,不必有太着急的心态,把一件事情做好
感谢亲的点赞、收藏、评论,一键三连支持,谢谢

更多推荐
所有评论(0)