扫描打开手机站
随时逛,更方便!
当前位置:首页 > 财经纵横

AI电力困局:谷歌太空发电与行业未来能源趋势

时间:2025-11-07 18:16:08 来源:字母榜 作者:字母榜



近年来,AI技术的迅猛发展引发了全球对能源需求的深刻讨论。微软CEO纳德拉在近期访谈中直言:“由于电力短缺,微软众多GPU闲置在仓库中无法运行。”这一言论,无疑为AI产业与能源供应的紧张关系敲响了警钟。

无独有偶,谷歌近期推出的“捕日者计划”(Project Suncatcher),将TPU芯片送入太空,利用太阳能发电的创新举措,似乎正是对纳德拉观点的生动回应。然而,令人费解的是,尽管硅谷巨头纷纷呼吁增加电力供应,甚至采取了“上天”这样的极端方案,但资本市场对此却反应冷淡。自11月初以来,无论是大A市场还是纳斯达克能源板块,均未出现显著涨幅。

这一现象引发了人们的深思:AI产业真的面临严重的电力短缺吗?

OpenAI CEO山姆·奥特曼给出了一个辩证的答案:“既是,也不是。”他解释道,当前AI产业确实存在电力短缺的问题,但问题的本质在于AI技术的供需失衡。他预测,未来六年内,AI技术将超出人类需求,导致对电力的需求自然下降。因此,从短期来看,AI产业确实面临电力短缺的挑战;但从长期来看,随着AI能效的提升,这一问题将得到缓解。

01 谷歌“捕日者计划”:太空发电的探索

2025年11月初,谷歌公布了“捕日者计划”,旨在通过将TPU芯片送入太空,利用太阳能发电。太阳每秒辐射的能量高达3.86乘以10的26次方瓦,是当前全球总发电量的一百万亿倍以上。部署在晨昏太阳同步轨道上的卫星,其太阳能板几乎可以全年无休地接收光照,年接收能量是地球中纬度地区同样面积太阳能板的8倍。



谷歌与卫星公司Planet Labs合作,计划在距离地面650公里的低地球轨道上部署一个由81颗卫星构成的AI计算集群。这些卫星将在半径1公里的空域内协同工作,彼此间保持100到200米的距离。首批两颗试验卫星预计于2027年初发射,以验证方案的可行性。

尽管谷歌已成功将旗下Gemini模型的单次查询能耗降低了33倍,但显然,其对电力的需求仍然巨大。在太空中利用太阳能发电并非新概念,但如何高效、安全地将电力传输回地面一直是难题。谷歌的“捕日者计划”则另辟蹊径,选择在太空中直接利用电力进行计算,仅将计算结果传回地面。

地面上的TPU超级计算机集群采用定制化的低延迟光学芯片互连技术,每个芯片的吞吐量可达每秒数百吉比特(Gbps)。然而,当前商用的卫星间光通信链路数据速率通常在1到100Gbps之间,远不能满足AI计算集群的需求。谷歌提出的解决方案是采用密集波分复用技术,理论上可使每条卫星间链路的总带宽达到每秒约10太比特(Tbps)。

尽管谷歌详细解释了“捕日者计划”的诸多难题及解决办法,如集群编队控制、辐射抵抗等,但一个关键问题仍未得到解答:如何散热?真空中没有空气对流,热量只能通过辐射方式散发。谷歌在一篇论文中提到,需采用先进的热界面材料和热传输机制,最好是被动式的以保证可靠性。然而,关于这部分的技术细节,论文中并未提供太多信息。

事实上,将数据中心送入太空并非谷歌独有。就在谷歌公布计划前,初创公司Starcloud已发射了搭载英伟达H100芯片的卫星,并宣称要建设一个拥有5吉瓦功率的天基数据中心。埃隆·马斯克也曾表示SpaceX将涉足太空数据中心领域。2025年5月,中国的之江实验室与国星宇航合作的“三体计算星座”首批12颗计算卫星已成功发射并组网。可见,在送AI去太空这个问题上,大家的目的都是一致的:地面上电不够用,那就去太空上拿。

02 AI电力困局:英伟达GPU的功耗挑战

造成AI对电力饥渴的主要“元凶”之一是英伟达的GPU产品。从Ampere架构到Blackwell架构,短短四年间,GPU的功耗增长了数倍。一个使用Hopper架构GPU的服务器机架额定功率约为10千瓦;而到了Blackwell架构,由于GPU数量的增加,机架功率接近120千瓦。

此外,数万块GPU相互交流时还需借助英伟达的NvLink技术以提升交流效率。每一条NvLink链路的功耗就有4到6瓦,两块GPU之间有18条链路,这些链路又要集中到NvSwitch上以实现非阻塞连接。而一个NvSwitch的功耗是50到70瓦。若一个GPU集群拥有1万块H100,那就需要157个NvSwitch和9万条NvLink链路,总功耗大概在730千瓦到1100千瓦之间。



GPU在散热方面也是耗电大户。最常见的8卡H100服务器,若采用风冷系统,功耗就要达到150瓦。因此,一个万卡集群光是散热就需要187千瓦。

当前,大型科技公司之间的竞争已从传统的计算能力单位转向了能源消耗单位“吉瓦”(GW)。像OpenAI和Meta这样的公司,都计划在未来几年内增加超过10吉瓦的计算能力。作为一个参照,AI行业消耗1吉瓦的电力足以供应大约100万个美国家庭的日常用电。国际能源署在2025年的一份报告中估计,到2030年,人工智能领域的能源消耗将翻一番,其增长速度几乎是电网自身增长速度的四倍。

高盛预测,到2027年全球数据中心电力需求预计将增长50%,达到92吉瓦。而美国数据中心电力需求在总电力需求中的占比,将从2023年的4%增长到2030年的10%。此外,高盛还指出一些大型数据中心园区的电力接入请求,单个项目确实能达到300兆瓦到数吉瓦的级别。

然而,有趣的是,尽管人工智能行业对电力的需求如此巨大,但能源公司和公用事业板块的市场表现却并不尽如人意。NextEra Energy是北美最大的可再生能源公司,而跟踪美国公用事业板块表现的代表性行业ETF名为XLU。过去52周,NextEra的涨幅为11.62%,ETF XLU的涨幅为14.82%,但同期标普500指数的涨幅却达到了19.89%。

如果人工智能行业真的面临严峻的电力短缺,那么作为电力供应方的能源公司和公用事业板块理应获得超额的市场回报。然而现实却并非如此。纳德拉揭示了其中的关键线索:电网接入审批需要5年时间,而输电线路建设则需要10到17年。与此同时,GPU的采购周期是以季度来计量的,数据中心的建设周期通常为1到2年,人工智能需求的爆发速度则是以季度为单位在变化。这些时间尺度之间存在着数量级的差异,由此产生的时间错配正是纳德拉所说的AI缺电的本质所在。

此外,微软还面临着另一个当下无法解决的烦恼。2020年微软曾宣布在保护生态系统的同时“实现碳负排放、用水净增并实现零废弃”。然而现实情况是,目前微软数据中心所使用的电力中近60%仍然来自包括天然气在内的化石燃料。这所产生的年度二氧化碳排放量大约相当于54000户普通美国家庭的排放总和。

另一方面,国际能源署在2025年10月发布的《可再生能源报告》中指出,全球发电能力的增长速度可能会超过包括人工智能在内的新增电力需求。报告提出,在2025至2030年这五年期间,全球可再生能源装机容量将增加4600吉瓦,这一增量的规模大致相当于中国、欧盟和日本三个经济体当前装机容量的总和。更进一步,报告预计这五年的新增装机容量将是之前五年增量的两倍。

这里要特别提到的是核能。核能是唯一能够提供稳定、大规模、低碳电力的选择。传统大型核电站的问题是建设周期长、成本高、风险大。但小型模块化反应堆(SMR)正在改变这个局面。SMR可以像制造飞机或汽车一样在工厂里批量生产标准化模块,然后通过铁路或公路运输到现场进行组装,类似于“乐高积木”式的建造方式。SMR的单机容量只有50-300兆瓦,比传统核电站的1000-1600兆瓦小得多,但这恰恰是它的优势。更小的规模意味着更短的建设周期、更低的初始投资、更灵活的选址。SMR可以在工厂里批量生产然后运到现场组装,大幅降低成本和风险。

SMR是当下最火最潮的发电方式。谷歌曾与Kairos Power签署协议购买了500兆瓦的SMR核电,这是科技公司首次直接投资SMR技术。微软则是在2024年1月聘请了曾在Ultra Safe Nuclear Corporation(USNC)的核战略与项目总监来担任微软核技术总监,其目的就是开发SMR以及更小的微型模块化反应堆(MMR)。换句话说,微软缺的不是电,而是时间。

03 AI能效提升:减少功耗的发展方向

相较于能源方面,减少AI自身的功耗也是一条重要的发展方向。奥特曼的观点是,每单位智能的成本每年下降40倍,很可能几年后就不需要这么多基础设施了。而且如果突破持续,个人级通用人工智能可能在笔记本上运行,进一步减少发电需求。



奥特曼曾以自家产品为例解释过这个问题。从2023年初的GPT-4模型到2024年中的GPT-4o模型,仅仅过了一年,每个token的成本降低了大约150倍。在算力不变的前提下,同样的业务在AI不同的发展阶段所需要消耗的电力就会减少。他说这种幅度的价格下降如果仅仅依靠硬件成本的线性降低是无法实现的,其背后必然包含了算法优化、模型架构改进和推理引擎效率提升等多方面的综合作用。

斯坦福大学2025年人工智能指数报告(HAI)中证实了这个说法。报告中写到:在18个月内,达到GPT-3.5水平(MMLU准确率64.8%)的AI模型调用成本从2022年11月的20美元/百万token骤降至2024年10月的0.07美元/百万token,成本下降了280倍。

在硬件方面,GPU现在增加了两个新的能效衡量单位:TOPS/W(每瓦万亿次运算)和FLOPS per Watt(每瓦浮点运算次数)。这样的单位是为了能够更直观地看到能效方面的突破。比如Meta发布的第五代AI训练芯片Athena X1,在低精度的前提下能效比达到了32TOPS/W,较前代提升200%,空载功耗下降87%。英伟达H100哪怕在FP8这样低精度的范围里其能效比也只有5.7TFLOPS/W。

不过对于一些高精度的训练任务仍然需要使用H100,这也是为什么Meta要大规模采购几十万块英伟达的GPU。Epoch AI的研究数据显示,机器学习硬件的能效正以每年40%的速度提升,每2年翻一番。新一代AI芯片的能效提升显著。英伟达的H200 GPU相比上一代H100能效提升了1.4倍,看起来还有很大的提升空间。

从宏观角度看,数据中心本身的能效才是最值得关注的数字。通常使用PUE(能源使用效率)来衡量数据中心的能耗情况。PUE的理想值是1.0,意味着所有电力都用于计算,没有浪费在冷却和其他辅助系统上。十年前数据中心的平均PUE是2.5,现在是1.5,谷歌的最新数据中心已经降至1.1。这意味着同样的计算任务现在只需要当年一半的电力。液冷技术、免费冷却、AI驱动的能源管理系统正在继续推低这个数字。

但无论哪种结局,能源行业都因为AI而完成了重塑。即便未来AI的需求减少,能源行业的兴盛也会推动其他行业发展。