摘要

IDC 最新报告指出,亚太 AI 应用正迎来全球爆发:到 2025 年,近 94% 企业将部署 GenAI,消费者使用率增至 30 %。焦点从模型训练转向大规模推理应用,催生对 AI 原生云的需求。

AI 原生云需高密度算力、超低延迟网络。GMI Cloud 通过架构范式、服务模式、全球化壁垒,提供训推一体解决方案,从“算力供应商”转为“价值共创伙伴”。

下文为 InfoQ 直播回顾内容,来自于 InfoQ 资深编辑的总结。

近期 IDC 发布了一份《AI 原生云 / 新型云厂商重构 Agentic 基础设施》报告,报告中的调研数据显示:87% 的亚太企业在 2024 年至少部署了 10 个 GenAI 场景,预计到 2025 年这一数字将上升到近 94%。此外,IDC 调查发现,亚太地区日常使用 GenAI 的消费者从 2024 年的 19% 增加到 2025 年的 30%,企业 GenAI 的采用率也激增,65% 的亚太区企业将有超过 50 个 GenAI 场景投入生产,预计到 2025 年,26% 的企业将拥有超过 100 个应用。IDC 预测,到 2028 年中等以上的规模企业当中,至少会有上百个智能体在运转。

在此背景下,企业需要重新思考其 AI 基础设施,是否足以应对即将到来的智能体协同时代。这场变革不仅关乎技术升级,更是一场关于商业模式、市场格局和全球战略的深度博弈。

为了帮助更多 AI 从业者、企业决策者理解这份报告的核心内容,InfoQ 特别邀请了 IDC 中国研究总监卢言霞、GMI Cloud 创始人 & CEO Alex Yeh,从数据洞察与实战视角拆解报告,解读亚太地区 AI 基础设施的新趋势。

wxv_4221068572778659860

以下为经整理的直播内容精要。

01 

需求爆发:AI 应用全球规模化催生“AI 原生云”

AI 应用构建浪潮扑面而来,但技术栈深海处的「链式反应」,可能比表面热浪更具颠覆性。

IDC 指出,自 ChatGPT 2022 年发布以来,大型互联网公司以及部分初创企业聚焦在大模型训练,以期在基础模型领域占据市场领先地位。因此在 2022-2024 年间,AI 基础设施的投资更多聚焦在模型训练侧。进入 2025 年,大模型的预训练开始收敛,市场的焦点更多在于模型推理侧,AI 推理专用基础设施需求激增。

IDC 报告指出,在亚太市场, 2023 年只有 40% 的组织使用人工智能推理基础设施,但在 2025 年,这一数字增长到 84%。这一数据标志着 AI 产业正在从模型开发阶段进入大规模应用落地阶段。

这种变化一方面正在模糊传统技术栈的界限,另一方面也催生出专为 AI 工作负载优化的新型云服务——AI Native Cloud.

什么是 AI Native Cloud(AI 原生云)?IDC 报告里定义:“需要同时满足 GPU 高密度算力、超低延迟网络、以及面向 GenAI 的编排与冷却等需求”。

卢言霞分析道:“未来企业可能有多个智能体,成千上万个智能体之间并行大规模交互,对分布式算力和模型间传输的要求已经与传统 AI 时代有很大不同。”更关键的是,从通用模型到行业定制化的转型中,模型调优、RAG 推理环节的增加催生了训推一体需求。

Alex 从技术角度分析了 AI Native Cloud 的核心技术壁垒:“首先是 GPU 集群的高效调度能力。 比如在泰国、越南、马来西亚等亚太区域间的算力调度,关键不在于硬件扩容,而是通过 K8s 等动态资源调配技术,将算力利用率稳定维持在 98% 以上。我们自研的 Cluster Engine 技术能在亚太四个节点间实时调度,甚至能利用时区差异 —— 当亚洲进入夜间时,美国客户可调用亚洲节点算力,让整体利用率持续攀升。这种调度稳定性还能避免训练任务中断,原本 10 天的训练周期可提前完成,这是高效调度能力的核心价值。

其次是算力的适配能力。 不同 AI 场景的算力需求差异极大:量化训练的逻辑如同骨架般具有严格时序节点,需高算力密度支持,而视频扩散模型或图片处理可能用中低端显卡就能完成。因此,能否打造统一框架适配多元场景至关重要。我们的第二个产品 Inference Engine 正是为此设计 —— 它打通硬件适配层,让客户无需关注底层硬件,直接通过 API token 按调用量付费。不是按卡计费,而是根据文本、图像、语音等不同模态动态调配算力,用灵活的算力资源支撑‘按 token 计价’模式,这是算力适配的核心逻辑。

再次是全链路的优化能力。 这正是 GMI Cloud 与传统云的差异所在:传统云仅提供‘多少张卡 + 多少存储’的资源组合,而我们会做分散式推理架构设计,效率远高于传统方案。基于 Inference Engine 的模型调度能力,我们的模型吞吐率、TTFT(首 token 生成时间)等指标均优于传统云厂商 —— 这源于从模型侧到硬件侧的深度调优,不再是单纯提供资源,而是将算力转化为直接可用的模型服务接口。”

他进一步补充了三点关键技术洞察,阐释了 AI Cloud 与传统云的根本区别:第一,架构范式转变:从虚拟化到裸金属。 Alex 指出,传统云厂商受制于过去二十年的虚拟化架构,通常以虚拟机形式提供算力。然而,AI 计算,尤其是训练和低延迟推理,需要直接掌控底层硬件资源以避免虚拟化带来的性能损耗。

Alex 提到与其他云厂商合作时的体验,“但现在 AI Native 的新创公司,常常会需要 BareMetal(裸金属),因为需要控制到整个架构。” 这种对底层硬件的直接访问和控制,对于实现极致的性能优化和稳定性至关重要。

第二,服务模式变革:从远程支持到陪伴式服务。 AI 时代云服务的深度正在发生本质变化。“我们服务了很多训练类的客户,基本需要陪伴式服务,因为训练集群随时可能出现各种问题”,Alex 描述道。这种 “长期陪伴的服务能力” 要求云厂商的工程师团队几乎驻扎在客户现场,与客户共同调试和优化,这与传统云时代 “开个网站、基本不会坏” 的远程、标准化服务模式截然不同。GMI Cloud 为此建立专属 SLA 团队,承诺 10 分钟响应、1 小时问题诊断、2 小时系统恢复。

第三,核心竞争壁垒:全球化合规与运营。 这一点在当前的国际环境下显得尤为关键。亚太地区数据法规碎片化,GPU 资源也相对抢手,这要求云厂商不仅要在技术上过硬,还必须具备在全球复杂的地缘政治和监管环境中安全、合规运营的能力。GMI Cloud 已在亚太建立多个合规节点,通过本地化集群 + 动态调度,满足不同区域的合规与延迟需求。

这三项要求共同构成了传统云厂商转型的壁垒。“很多传统云厂商或者 GPU 集群供应商很容易被过去的架构给限制住,而不能提供给客户更敏捷的产品,”Alex 总结道。而这恰恰为没有历史包袱、从一开始就围绕 AI 工作负载构建技术栈的新兴云厂商创造了巨大的市场机会,进而推动了 AI 云厂商的快速崛起。目前 GMI Cloud 正持续推进 “AI Factory” 计划,即将落地全亚洲最大的万卡液冷 GB300 集群,未来还将在东南亚、日本、中东、美国等区域布局,以支撑超大规模算力需求等。

02

效能革命:从“算力供应商”到“价值共创伙伴”

任何技术的革新,最终落地到企业的视角,除了提效,能否节省成本则是技术选型的另一考核要素。

亚太地区 AI 企业普遍采用多云策略,以规避供应商锁定、追求最佳性价比或满足数据本地化要求。然而,“算力资源分散在不同云平台、管理规则与接口五花八门” 的局面,构成了一个巨大的 “隐性成本黑洞”。

卢言霞详细剖析了其中的挑战:“企业的管理成本变得非常高,这涉及到完全不同厂商的技术栈,它们的定价模式、服务水准协议(SLA)、技术支持方式都存在巨大差异。要实现这些异构技术栈的融合、保证不同平台间的兼容性,其整体的运营复杂度和成本是相当可观的。”

她进一步指出了更棘手的数据问题 —— 生成式 AI 应用往往需要从多个异构数据源读取数据。当企业设想一个核心智能体与内部成千上万的其他智能体进行并行交互时,这些数据和系统可能分布在不同的公有云、甚至私有的本地化基础设施中,其间的数据同步与协同成为了巨大的工程挑战。更关键的是,不同系统接口标准化程度低,多数定制开发系统接口不统一,进一步抬高了技术门槛。

面对这一行业痛点,Alex 阐述了 GMI Cloud 提供的 “统一算力纳管” 解决方案:

  • 底层 GPU 硬件架构:提供高端 GPU 云与裸金属服务。通过顶级生态协作获取英伟达高端硬件资源,并为高性能和高控制权限要求的客户提供直接开放硬件层访问的裸金属方案,消除虚拟化损耗,适配泛互联网、自动驾驶等对性能与控制权要求严苛的场景。

  • IaaS 层:Cluster Engine 平台。 基于 K8s 架构实现全球算力弹性调度,支持跨区域负载均衡与错峰复用,资源利用率达 98%+,并通过可视化工具实现实时监控与智能管理。

  • MaaS 层:Inference Engine 推理引擎平台。 底层搭载 H200 芯片,集成 DeepSeek、Qwen 等近百个大模型,平台通过自研推理优化技术提升模型调用效率,提供统一 API 接口,支持文本 / 图像 / 视频多模态模型调用,实现 “按 token 用量付费” 的弹性服务。

三层架构的协同形成了完整的算力价值闭环:底层硬件提供性能基础,Cluster Engine 实现资源高效流转,Inference Engine 交付即用模型能力,最终帮助企业破解算力分散、管理复杂、成本高企等核心痛点。

除了多云管理带来的复杂度和成本挑战,企业在算力投入上还面临一个两难困境:“前期投入巨大,但后期利用率难以保证,导致闲置率高企”。 卢言霞观察到,这一问题在 2025 年上半年的中国市场尤为典型。“尤其是一些大型企业,之前投入了大量的一体机方案。在大模型浪潮爆发之前,中国市场对 AI 和 IT 的投入就比较重视算力基础设施的采购,但往往未能与最终的应用场景和效率紧密挂钩。”

传统 AI 时代,企业 IT 投入中硬件常作为固定资产,但技术迭代快(如几年前的芯片型号如今可能过时),加上 AI 应用未大规模落地,导致前期投入易形成浪费;而互联网企业因业务波峰波谷明显,新兴 AIGC APP 试点新功能时,也不适合过早投入硬件,否则可能因功能未留存造成资源闲置。

针对这一核心痛点,Alex 分享了 GMI Cloud 给客户的方案。“GPU 的迭代速度正在变得越来越快,从过去的 5-6 年缩短到现在的 3 年甚至更短。技术迭代的加速意味着硬件贬值的风险急剧增加。因此,我们提供了 ‘Rent versus Buy’(租用而非购买) 的服务方式。客户可以与我们签订三年的合同,以租用的方式获得顶尖的算力,并在合同结束后,可以根据需要轻松升级到最新的硬件,从而彻底避免了技术迭代带来的资产贬值风险。” 这种模式对于现金流敏感的新创 AI 应用公司尤其具有吸引力,因为它将沉重的固定资产投入转化为了灵活的运营成本。

Alex 强调:“这种深度合作模式也使得 GMI Cloud 与客户的关系从传统的 ‘供应商 — 采购方’转变为了 ‘战略伙伴、共同成长’。”实际上,当 AI 算力需求从 “标准化采购” 转向 “场景化定制”,传统云厂商 “卖算力资源” 的供应商模式也将发生改变。随着 AI 基础设施进入 “效果为王” 的深水区,云厂商的竞争力不再取决于 “有多少算力”,而在于 “能为客户的每一分算力投入创造多少商业价值”。

03

 市场转向:“推理需求爆发”衍伸行业竞合新趋势

GenAI 场景应用的加速,除了带来技术栈、需求、模式等变革外,也在深层次影响产业发展的风向和竞争格局。

报告数据显示,95% 的亚太企业正在同时部署训练和推理基础设施。从行业分布来看,泛互联网、制造业和具身智能成为推理设施投入增速最快的三大领域。 其中,泛互联网既包括传统大型互联网企业,也包含当下火热的 AIGC 应用,特别是中国企业出海的重点方向 ——AI 社交、内容生成等 to C 应用;制造业则涵盖高端器械、医疗器械、重工业设备等领域的出海企业,这些企业在海外建设智能制造工厂,带动了大模型和 AIGC 应用需求;具身智能领域的机器人企业,无论是新秀还是老牌厂商,在 AI 推理算力基础设施上的投入也呈指数级增长。

Alex 通过实战观察验证了这一趋势:“我们看到的最大需求来自泛互联网,接下来是制造业。这些需求可以细分为三种模态:语音、视频加图像、文本。” 他进一步解释道,语音包括语音转换、呼叫中心、陪伴应用;视频主要是电商领域,需大量图像与视频制作广告素材;文本则是 Copilot、会议摘要等工具。

技术应用层面,多模态融合正成为场景爆发的核心方向。Alex 预判视频领域将迎来 “DeepSeek 时刻”,B200 相比 H100 速度提升两倍,原本生成 5 秒视频需要耗时 30 秒,未来可能缩短至 400 毫秒,实现即时生成,这将彻底改变内容生产方式。另外,电商、影片生成、短视频、动画、广告都是亚洲市场的热门领域,庞大的用户基数与场景红利,为 AI 技术提供了天然的试验场与商业化土壤。而开源与闭源格局的变化更是降低了入场门槛 ,中尾部企业无需自建大模型,通过 Finetuning 即可快速落地场景。

推理需求的快速增长,也带动了 AI 基础设施市场的竞争格局重塑。传统公有云厂商与 AI Cloud/GPU Cloud 新型云厂商之间的市场份额变化呈现出明显趋势。卢言霞透露:“2024 年到 2025 年间,GPU Cloud 和新兴云厂商在整个生成式 AI 基础设施市场上可能占到 15% 左右的市场份额。不要小瞧这 15%,对基础设施这么庞大的市场来说已经是非常大的进展。”

一个反常识的转变也在发生:亚太市场的算力玩家们正在从 “零和博弈” 走向 “竞合共生”。Alex 提到,不同于传统 IT 行业的 “要么我卖进、要么你卖进”,AI 赛道因算力普遍短缺,“合作潜力非常多,大家都不够用,就互相借卡、租卡”,泛互联网超大型企业、公有云甚至会与新兴 AI 云厂商合作,“他们不想持续砸钱买卡,直接向我们租,我们能在小地方快速建立集群,速度比他们更快”。

这种资源互补的模式,打破了传统市场的竞争壁垒,让算力资源流动更高效,为中国企业提供了更多合作机遇,也为中企 AI 应用出海提供了更多的支撑。

对于计划出海的中国 AI 企业,在直播最后,卢言霞给出了三点核心战略建议:

第一,建立负责任的 AI 体系,“现阶段对整个行业参与者非常重要”。随着生成式 AI 能力增强,伦理风险、内容合规等问题已引发全球监管关注,头部企业需优先构建全流程的 AI 治理框架,这不仅是准入门槛,更是长期信任的基础;

第二,紧盯大模型能力进化,“大模型迭代快,要判断哪些能力可能由大模型直接提供,无需开发工具重复投入”。避免在通用能力上浪费资源,聚焦行业定制化的差异化价值;

第三,重视 AI 专用基础设施建设,“传统 AI 时代企业对基础设施重视不足,如今生成式 AI 广泛部署,必须关注面向 AI 工作负载优化的基础设施”,尤其是训推一体、低延迟网络等核心能力,这是业务落地的技术基石。

对中国企业而言,只有抓住推理市场新机遇,在性能、合规、成本间找到平衡点,才有机会在算力变革的浪潮中抢占先机,从 “AI 应用追随者” 稳步进阶为 “区域规则的共建者”,进而在全球市场竞争中筑牢优势。

关于GMI Cloud

由 Google X 的 AI 专家与硅谷精英共同参与创立的 GMI Cloud 是一家领先的 AI Native Cloud 服务商,是全球六大 Reference Platform NVIDIA Cloud Partner 之一,拥有遍布全球的数据中心,为企业 AI 应用提供最新、最优的 GPU 云服务,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的 AI 云服务解决方案。

GMI Cloud 凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的 GPU 产品阵容(如能够精准平衡 AI 成本与效率的 H200、具有卓越性能的 B200 以及未来所有全新上线的高性能芯片),确保企业客户在高度数据安全与计算效能的基础上,高效低本地完成 AI 落地。此外,通过自研“Cluster Engine”“Inference Engine”两大平台,完成从算力原子化供给到业务级智算服务的全栈跃迁,全力构建下一代智能算力基座。

作为推动通用人工智能(AGI)未来发展的重要力量,GMI Cloud 持续在 AI 基础设施领域引领创新。选择 GMI Cloud,您不仅是选择了先进的 GPU 云服务,更是选择了一个全方位的 AI 基础设施合作伙伴。

如果您想要了解有关 GMI Cloud 的信息

请关注我们并建立联系

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐