每一次AI查询都有成本,而且不仅仅是金钱成本。研究表明,将AI工作负载分配到您的设备上 – 例如智能手机 – 既能降低成本,又能减少水资源消耗量


您需要了解的信息:

  • ‌研究表明,在您的手机上运行AI推理可能比完全依赖云端消耗资源更少。
  • ‌将终端与云端处理结合在一起的混合AI架构可以优化日常工作负债的成本、性能及可持续性。
  • ‌理解AI推理的隐藏财务和环境成本对于实现负责任和可扩展的技术采用至关重要。

想象一下:您接到了一项任务,需要在明天之前撰写一份关于2050年计算技术趋势的报告。您打开最常用的生成式人工智能助手应用程序,草拟了一条内容提示并点击发送。仅仅几毫秒后,文字就会出现在屏幕上。所有这些操作都是免费的,对吗?

事实上,情况远比这复杂。每一次AI查询都有成本 – 无论是资金、电力还是水资源成本 – 而且这种成本并非只在特定场景下产生。消费者和企业能看到信用卡上的订阅费用,却可能意识不到,所有计算任务依赖大型数据中心所带来的环境成本。到2029年,预计美国将有大约1.63亿用户,1随着AI应用程序在我们的生活中变得越来越普遍,对我们的钱包和环境的影响将继续增长。

但是,前进的道路还是存在的。与其完全依赖云端服务器,不如将部分AI推理转移到您的智能手机等设备上,这比完全依赖云端更能节省资源。

这并非突破性进展:许多日常生成式人工智能用例已经可以在设备上处理 – 例如可以在骁龙平台上运行的最新开放式人工智能gpt-oss模型。AI 模型正变得体积更小,同时功能越来越强大,效率也越来越高,2而应用程序开发人员正在寻找降低云端推理成本的方法,以应对日益增长的隐私和个性化需求,尤其是在AI智能体出现后。与此同时,神经处理单元 (NPU) 的性能也在不断提高,使得本地AI成为越来越可行和富有吸引力的选择。

“与其完全依赖云端服务器,不如将部分AI推理转移到智能手机等设备上,这比完全依赖云端更能节省资源。”

本地AI比云端推理更能节省资源

最近一项研究以水升数和焦耳数(标准能量单位)—为单位计算了常用AI提示的隐藏成本。3

研究人员使用相同的AI模型,在三星Galaxy S244和谷歌Colab云端服务器上,对相同的查询请求进行了运行测试。5研究人员发现,本地AI推理使用更少的能源和水,并减少了二氧化碳的排放。6

电力和水对于数据中心的运行至关重要;电力和水为数量巨大的GPU、TPU和其他AI加速器提供了运行所需要的动力;同样重要的是,还为设备降温。6

研究人员发现,与在谷歌Colab云端服务器上运行这些工作负载相比,在三星Galaxy S24上运行AI推理可以减少高达95%的推理能耗和高达88%的碳足迹。在用水量方面,平均节省用水量高达96%

虽然此项研究仅限于一个小范围,可以针对有限数量的实验,并使用未经优化的云端推理 –这需要进一步研究以获得更有力的结论 – 但它表明了一条有希望的前进道路:从完全基于云端的AI推理转向在本地处理某些常规工作负载混合方法。这种方法可以减轻电网的压力,并有助于减少大型数据中心对环境造成的影响。

当前数据中心的隐藏成本

以下是其背后的工作原理:目前,大多数AI推理均以云端为基础。这意味着将您的提示发送到在数据中心服务器上托管的某一模型。一旦经过处理,该模型就将输出发送回您的应用程序。下面是《华尔街日报》的乔安娜·斯特恩以更为直观的方式提供的 AI提示流程演示 – 以及能源消耗情况。

大语言模型提供商向应用程序开发人员和最终用户收取使用其基础设施处理提示的费用,包括AI加速硬件、存储、网络带宽和维护等运营成本、技术支持、水电等公用事业费用。这导致开发人员部署生成式人工智能应用程序的成本更高,而对于最终用户来说,这些应用程序的成本也更高。所有这些持续发生的云端成本是许多生成式人工智能产品收取月费的部分原因。

研究范围:此项研究比较了在云端和边缘设备上运行生成式人工智能模型的成本和环境足迹。对于云端而言,各种模型均在配备了英伟达A100或L4 GPU,并在谷歌Colab平台上托管的服务器上运行。对于边缘设备而言,各种模型均在搭载了第3代骁龙8平台的三星Galaxy S24设备上运行。

“随着生成式人工智能模型的体积变得越来越小,而本地处理能力不断增长,我们相信,从云端到边缘的AI处理可以在成本、能源、性能、隐私、安全和个性化方面带来巨大好处。”

混合AI可以大规模解锁生成式人工智能

虽然本地AI推理对部分工作负载而言是理想选择,但这并非一种非黑即白的情况。AI 推理的执行实际上呈梯度分布。AI推理发生的范围从最靠近用户的设备端一直延伸到远处的云端。

正如我们在白皮书中所提到的那样,混合AI架构可以根据模型和查询的复杂性在云端和边缘设备之间分布AI推理。如果模型可以根据给定提示在某一设备上运行,同时不会影响其准确性、延迟性和生成长度,则推理应该优先考虑在边缘设备上运行。如果模型较为复杂,推理可以在设备和云端之间分布,设备运行模型的“轻”版本,而云端同时处理“完整”模型,并在需要时纠正设备回复。

高通技术公司处于将高效推理从云端拓展到边缘的有利地位

随着生成式人工智能模型的体积不断缩小,而本地处理能力不断增长,我们相信,从云端到边缘的AI处理可以在成本、能源、性能、隐私、安全和个性化方面带来巨大好处。我们正在设计同时利用边缘和云端的高效AI推理解决方案。这种混合设置将AI工作负载从云端适当分布到边缘,以提供最佳解决方案。利用这种方式,客户和合作伙伴的智能手机、个人电脑、物联网设备、车辆和数据中心能够在全球范围内提供更直观、更高效的用户体验。

利用本地AI开启全新的可能时代

在所发布内容中表达的观点仅为原作者的个人观点,并不代表高通技术公司或其子公司(“高通技术公司”)的观点。所提供的内容仅供参考之用,而并不意味着高通技术公司或任何其他方的赞同或表述。本网站同样可以提供非高通技术公司网站和资源的链接或参考。高通技术公司对于可能通过本网站引用、访问、或链接的任何非高通技术公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。

参考文献:

1:根据https://www.emarketer.com/content/genai-user-forecast-2025,生成式人工智能正从爆炸式增长转向主流应用;预期到2029年,美国将有1.63亿用户。

2. AI变更正在推动本地推理创新

3:李鹏飞、穆罕默德·J·伊斯兰、与任少雷。2025年。生成人工智能推理的环境足迹案例研究:云端与边缘。SIGMETRICS性能评估。第53卷第2期(2025年9月),第21-26页。

4:三星Galaxy S24,配备高通骁龙8第3c代。

5:配备了英伟达A100或L4 GPU的云端服务器(在谷歌Colab平台上托管)。

6:李鹏飞、穆罕默德·J·伊斯兰、与任少雷。2025年。生成人工智能推理的环境足迹案例研究:云端与边缘。SIGMETRICS性能评估。第53卷第2期(2025年9月),第21-26页。

7:云端和本地推理的水足迹仅包括推理过程中消耗的水量。云端推断水足迹包括直接用水量,主要包括在数据中心托管的云端服务器冷却需求(范围1)以及与为云端服务器供电的发电相关的用水量(范围2)。本地推断水足迹包括与为边缘设备供电的发电相关的水使用量(范围2)。

8:李鹏飞、穆罕默德·J·伊斯兰、与任少雷。2025年。生成人工智能推理的环境足迹案例研究:云端与边缘。SIGMETRICS性能评估。第53卷第2期(2025年9月),第21-26页。

关于作者

维内什·苏库马尔,高通技术公司人工智能/生成式人工智能产品管理副总裁

阅读更多

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐