算力狂飙电力承压英伟达、英特尔争相推出节能方案

当地时(shí)间8月(yuè)26日，OpenAI硬件设施(shī)负责人Trevor Cai在Hot Chips 2024上发表了长(zhǎng)达一小时的演讲，主题(tí)为“构建可扩展(zhǎn)的AI基(jī)础设施”。他指出，OpenAI的一项重要观察结果(guǒ)是(shì)，扩大规模(mó)可以(yǐ)产生(shēng)更好、更有用的(de)人工智能（AI）。

作为全球芯(xīn)片行业(yè)影响(xiǎng)力最大的会(huì)议之一，Hot Chips于每年(nián)8月份在斯(sī)坦(tǎn)福大学举行。不同(tóng)于其他行业会议以学术研(yán)究(jiū)为主，Hot Chips是(shì)一场产业界的(de)盛会，各大处(chù)理器公司会在(zài)每年(nián)的会上展(zhǎn)现他们最新的产品(pǐn)以及在研的产品。

《每日经济新闻》记者注意到，AI浪潮(cháo)推动(dòng)数据(jù)中心激增，同时也伴随着能源需求的激增(zēng)。在这样的(de)背(bèi)景(jǐng)下，此次的Hot Chips大会上，围绕人(rén)工智能(néng)的议(yì)题比以往任(rèn)何一届都更加活跃。Trevor Cai的演讲着眼于解决能源和算力之间(jiān)的(de)问题，英特尔(ěr)、IBM和英伟达等(děng)则是提出了更节能的技术方案。

摩根士丹利(lì)在8月份发布的研究中预测称，生成式(shì)AI的电力需求将在未来几年内每(měi)年飙升75%，预计到2026年，其(qí)消(xiāo)耗(hào)的(de)能源量将(jiāng)与西班牙在2022年的消(xiāo)耗量相当。科技(jì)巨头们该如(rú)何应对能源挑(tiāo)战(zhàn)？

聚焦“节(jié)能方案”

当地时间8月(yuè)26日(rì)，一年(nián)一度的半导体企业盛会(huì)Hot Chips2024在斯坦福大(dà)学纪念礼(lǐ)堂举(jǔ)行，今年是第36届(jiè)。

从会议第一天(tiān)的情况(kuàng)来看，大部分的(de)话题都集中在了更节能、安全且可扩展的大规模AI服务器部署方案上。

OpenAI硬件负责人Trevor Cai发表了“可(kě)预测的扩展和(hé)基础设施”主题(tí)演讲(jiǎng)，谈到了提(tí)升计算能力所带(dài)来的可预测的扩展效(xiào)益(yì)，这也是OpenAI自成立之初就关注的(de)重点。一个重要的(de)观察结(jié)果是，扩大规模可以产(chǎn)生更好、更有用的人工智能。“每次计算量翻倍，都(dōu)会得到更好的结果。模型的能力和(hé)计算资源的消耗是呈(chéng)指数级别上升的。自2018年以来，行业中前沿模型的计算量每年增长约4倍。”他说道。

最初，GPT-1只需几周的时间完成(chéng)训练。如今，它已经扩展到需要庞(páng)大的GPU集群(qún)。因此，OpenAI认为AI的基础建设需要大量投资，因为计算能力的提升已经产生(shēng)了超过8个数量级的效益。

似乎是为了(le)呼应OpenAI的演讲，各(gè)大(dà)公司的(de)演讲也不(bù)约而(ér)同地提(tí)到(dào)了大规(guī)模部署AI服务器的计划方案。

IBM在大会上披露了(le)即将推出的IBM Telum II处理器和IBM Spyre加(jiā)速器的架构细节。新技术旨在显著扩展(zhǎn)下一代IBM Z大型机系(xì)算力狂飙电力承压英伟达、英特尔争相推出节能方案统的处理能力，通过一(yī)种新的(de)AI集成方法帮(bāng)助加速传统 AI模型和大型(xíng)语言 AI模型(xíng)的协同使用。IBM特别强调这次(cì)更新的先进I/O技术旨在降(jiàng)低能耗(hào)和数据中心占用空(kōng)间。

英伟达也在大会上放出了(le)最新的AI集群架构Blackwell的相关消(xiāo)息。英伟达称，Blackwell拥有6项革命性技术，可支持多达10万(wàn)亿参(cān)数的模(mó)型进行AI训练和实时大语言模型（LLM）推理。值得注意的是，英(yīng)伟达的Quasar量化系统用于确(què)定可以(yǐ)使用较低精度的内容，从而减少计算和存储。英伟达表示他(tā)们的宗旨就是在提高能源效率的同时为AI和加速计算性能提供新标准(zhǔn)。

除(chú)此之外，英特尔、博通、海力士等公司的演讲中(zhōng)均提到了更节能的技术(shù)方案(àn)。

能(néng)源需求激增

科技巨头(tóu)们着眼“更节能的”技术方(fāng)案的根本原因在(zài)于，当前人(rén)工智能热潮正(zhèng)在增加更强大的处理器以及保(bǎo)持数据中心冷却所需的能源需求。

当前，微软、Alphabet和Meta等大型(xíng)科技公司正在投资数十亿美元建设数据中心基础设施，以支(zhī)持生成式人工(gōng)智能，但数据中心的激增也伴(bàn)随着能源需求的激增。

据彭博社报(bào)道(dào)，仅去年，大型(xíng)科技公司就向数据中心设施投入了约 1050亿(yì)美元。谷歌、苹果和特斯拉等公司不断通过新产品和服务增强AI能力。每(měi)项AI任务都需要巨大的计算能(néng)力，这(zhè)意(yì)味着数据中心会消耗大量电力。国际(jì)能源署（IEA）预(yù)测，到2026年，全球数据中心每年使用的能源量将相当于日本的电力消耗量(liàng)。

Hugging Face的人工智能和(hé)气候负责人Sasha Luccioni提(tí)到(dào)，虽然(rán)训(xùn)练AI模型需要耗(hào)费大量能源（例如(rú)，训练 GPT-3模型耗费了大约(yuē)1300兆瓦时的电力，而GPT-4的训练消耗是 GPT3的50倍），但通常只进(jìn)行一次。然而(ér)，由于查询(xún)量巨大，模型生成响应可能需要更多(duō)能源。

例如，当用户向ChatGPT等(děng)AI模型提(tí)问时，需要(yào)向数(shù)据(jù)中心发送请求，然后强大的处理器会生成(chéng)响应。这个过(guò)程虽然很快，但消(xiāo)耗的能量也是巨大的。根据艾伦人工智能研究所的数据，对ChatGPT进行一(yī)次查询所(suǒ)消耗(hào)的电量相当于为灯(dēng)泡点亮20分钟，是简单Google搜索耗电量(liàng)的10倍以上。

然而，全球的电力资源有限，而数据中心需要持续稳定的(de)电(diàn)力供应来运行服务器(qì)和其他核心运营设备。如果能源供(gōng)应不稳(wěn)定，停机可能会给企业和(hé)其他用(yòng)户造成重大经济损失。此外，巨大的能源消耗也引发了人们对环境的担忧。

为应对(duì)这一挑战(zhàn)，科技公司(sī)们开始寻找解决方案。

部分公(gōng)司选(xuǎn)择更清洁且高效(xiào)的能源供给，如核能。亚(yà)马逊最近在美国宾夕(xī)法尼亚州东北部购(gòu)买了一个(gè)价值6.5亿美元的核能数据中心园区设施，该设施将使用核(hé)反应堆产(chǎn)生的高达40%的电力，最终使亚马逊能够减少对当(dāng)地电网的依(yī)赖。与此(cǐ)同算力狂飙电力承压英伟达、英特尔争相推出节能方案时，微软聘请(qǐng)了核专家(jiā)来带头(tóu)寻找这种替代电源。微软还与核电站运营(yíng)商签订了合同协议，为其(qí)位于弗吉尼亚州的一个数据中心提供电力。算力狂飙电力承压英伟达、英特尔争相推出节能方案>

除此之外，科(kē)技公司们不仅在前文所提到的一(yī)系列(liè)芯片节能技术进(jìn)行(xíng)努力(lì)，也在其他硬件设施和技术上下足了(le)功夫。

谷歌正在开发人(rén)工智能专(zhuān)用芯片，例如张(zhāng)量(liàng)处理单元（TPU），这些芯片针对(duì)人(rén)工智能任务进行了优化(huà)，而(ér)不是使(shǐ)用为游戏技术创建的图形处理单元（GPU）。

英伟达针对Blackwell芯片(piàn)的直接液体冷却系统还宣布了一项研究，研究表明了如何重新利用从服务器中吸(xī)收的热量并将其回收到数据中心。据英伟达估计，冷却最多可减少数据中心设施(shī)耗电量的28%。

然(rán)而，威斯(sī)康星大学(xué)麦迪逊分校的教授辛克(kè)莱提醒，杰(jié)文斯悖论在(zài)这里依然适用。“提高人(rén)工智(zhì)能的效率，虽然减(jiǎn)少了(le)单次能耗，但整体使用率的增(zēng)加最终会导致总体能耗的上升。”辛克莱解释(shì)道。这个(gè)悖(bèi)论不仅适用于19世纪的火车(chē)煤(méi)炭使(shǐ)用，同样适用于(yú)当今的人工智能和(hé)电力消耗。