随着生成式AI在各类任务中的广泛应用,其能耗引发了越来越多的关注。国际能源署报告称,到2026年数据中心的电力消耗可能会翻倍。尽管科技领袖们希望AI能带来科学突破,从而减少碳排放,但目前AI的大量计算需求正在加重能源负担,延长了煤电厂的使用寿命,增加了碳排放。
为了应对人工智能(AI)快速发展带来的能源和环境成本,2024年8月21日自然杂志Nature刊文发表了一篇题目为《Light bulbs have energy ratings — so why can’t AI chatbots?》的文章,探讨了已有的绿色政策机制是否可以为解决这一问题提供可能的路径。
当数百万人越来越多地使用生成式人工智能模型来完成从搜索网络到制作音乐视频的各种任务时,减少这项技术的能耗变得越来越紧迫。
一些科技行业的领导者试图淡化其对能源电网的影响。他们认为,AI有可能推动科学进步,从而减少全球碳排放。另一些人则支持尚未实现的能源来源,如核聚变。
然而,现状是,AI的能源需求使得老旧的燃煤电厂继续运转,显著增加了为该技术提供计算能力的公司碳排放量。鉴于气候科学家的共识是世界正面临避免不可逆转气候变化的“此时或永远”的关键时刻,监管机构、政策制定者和AI公司必须立即解决这个问题。
首先,已经鼓励其他经济部门提高能源或燃料效率的政策框架可以修改并应用于AI驱动的应用程序。监控和评估AI能耗以及相关碳排放的努力应该从研究界扩展到公众。为公众提供一个简单的方式来做出明智的选择,将有助于缩小开发者和用户之间的差距,并最终有可能带来改变。
这也是我们在此描述的“AI能源之星”项目的目标,并建议作为政府和开源社区可以采用的模板。该项目的灵感来自美国环保署的“能源之星”评级系统。该系统为消费者提供了产品能耗的透明而简明的衡量标准,从洗衣机到汽车的产品都有能效标识。在过去30年中,该计划帮助减少了超过40亿吨的温室气体排放,相当于每年减少近3000万辆汽油车的排放量。
AI能源之星项目的目标类似:帮助AI模型的开发者和用户考虑能耗问题。通过针对一组常用的使用场景对多种AI模型进行测试,我们可以建立一个预期的能耗范围,并根据这些模型在该范围内的表现进行评级,能耗最低的模型将获得最高评级。这个简单的系统可以帮助用户迅速选择最适合他们使用场景的模型。希望更大的透明度也能促使模型开发者将能耗作为一个重要的参数,从而促进行业范围内的温室气体排放减少。
我们的初步评估主要集中在开源模型,这些模型托管在Hugging Face平台上,这是一个领先的AI模型库。尽管一些广泛使用的聊天机器人,如Google和OpenAI发布的产品,尚未包含在我们的测试集中,但我们希望随着消费者对这个话题的兴趣增长,私营公司也将参与对其专有模型的能效评估。
评估过程
一个AI模型可以用于多种任务——从文本摘要到语音识别,因此我们策划了一个反映这些多样化使用场景的数据集。例如,对于目标检测,我们采用了COCO 2017和Visual Genome——这两个都是AI模型研发领域中常用的评估数据集——以及一个由水道中浮动塑料物体的注释示例组成的“河中塑料”数据集。
我们确定了大多数消费者使用AI模型的十种主要方式,例如用作问答聊天机器人或图像生成工具。然后我们从特定任务的评估数据集中抽取了具有代表性的一组样本。我们的目标是测量模型处理1000个查询时消耗的能量。我们使用了开源的CodeCarbon包来跟踪计算这些响应所需的能耗。实验是在最先进的NVIDIA图形处理单元上运行的,这反映了基于云的部署设置中使用的专用硬件,同时也在商用计算机的中央处理单元上进行了测试。
在我们最初的一组实验中,我们评估了来自Hugging Face平台的200多个开源模型,选择了每个任务中下载次数最多的20个模型。初步结果显示,涉及图像分类和生成的任务通常比仅涉及文本的任务产生的碳排放高出数千倍。考虑大规模采用AI的创意产业,如电影制作,应对此特别注意。
在我们的样本集中,最节能的问答模型处理1000个问题时大约耗电0.1瓦时(相当于让一个25瓦的白炽灯泡亮5分钟)。而最不节能的图像生成模型则需要多达1600瓦时来生成1000张高清图像——这相当于完全充电70次智能手机的电量,能耗差异达到了16000倍。随着越来越多的人将AI模型整合到他们的工作流程中,他们使用这些模型的任务类型将越来越重要。
总体而言,监督式任务(如问答或文本分类)——这些任务中模型会从一组选项中选择或在文档中查找答案——比依赖于训练数据模式生成响应的生成式任务更为节能。此外,尽管涉及大型语言模型的大多数使用场景的能耗都高于Google搜索,但文本摘要和文本分类任务的能耗相对较低(查询AI聊天机器人一次所消耗的能量大约是处理一次网络搜索请求的十倍)。
这些评级可以帮助开发者选择能效更高的模型架构来优化能耗。我们的尚未发表的测试结果已经表明,在相似规模的模型中(根据神经网络中的连接数量确定),执行文本生成任务时,西雅图的艾伦研究所创建的语言模型OLMo-7B在生成1000个文本响应时消耗了43瓦时,而Google的Gemma-7B消耗了53瓦时。
有了现有的多个选择,基于这些排名的能效星级评级可以推动模型开发者降低其能耗。我们将推出一个AI能源之星排行榜网站,并提供一个集中测试平台,用来比较和评估新发布的模型。随着行业向正确方向发展,针对每个星级评级的能耗门槛也将不断变化。因此,我们计划定期更新评级,为用户和组织提供除性能之外的另一有用指标,以便评估最适合的AI模型。
建议
为了实现有意义的进展,所有利益相关方必须积极采取措施,确保AI的可持续增长。以下建议为相关各方提供了一些具体的指导。
让开发者参与进来。AI研究人员和开发者是该领域创新的核心。他们可以通过在开发和部署周期中始终考虑可持续性,从源头上显著减少AI的环境影响。为了让测量并公开分享模型的能耗信息(例如在“模型卡”中列出训练数据、性能评估和元数据)成为标准做法,必须争取开发者的参与。
推动市场走向可持续性。企业和产品开发者在AI技术的部署和商业使用中扮演着关键角色。无论是创建独立产品、改进现有软件,还是将AI用于内部业务流程,这些群体通常是AI价值链中的关键决策者。通过需求能效更高的模型并制定采购标准,他们可以推动市场走向可持续解决方案。例如,他们可以设定基线期望(如要求模型在AI能源之星计划中至少达到两星评级)或支持可持续AI立法。
披露能耗。AI用户处于前线,使用AI产品进行各种应用。对能效解决方案的偏好可以传递强烈的市场信号,鼓励开发者和企业优先考虑可持续性。用户可以通过选择公开能耗的模型来引导行业走向正确方向。他们还可以更有意识地使用AI产品,避免浪费和不必要的使用。
加强监管和治理。政策制定者有权将可持续性作为AI开发和部署的强制性标准。随着欧盟和美国近期通过的要求AI透明化的立法,政策制定者正朝着更高的责任制迈进。尽管最初这些规定可以是自愿的,但最终政府可以根据基础模型的效率来规范AI系统的部署。
监管机构可以采取全局视角,他们的参与对于制定全球标准至关重要。建立独立的权威机构来跟踪AI能耗随时间的变化也可能变得重要。
总结
显然,在大规模采用AI之前,还需要做更多工作来建立合适的监管体系。AI能源之星项目是一个小的开端,可以进一步优化。目前,我们尚未考虑模型存储、网络以及数据中心冷却所消耗的能量,这些只能通过直接访问云设施来测量。这意味着我们的结果代表了AI模型整体能耗的下限,如果计算这些附加开销,能耗可能会翻倍。
能耗如何转化为碳排放也将取决于模型最终部署的地点以及该城市或地区的能源构成。然而,最大的挑战仍然是专有模型生态系统的封闭性。政府监管机构开始要求访问AI模型,尤其是为了确保安全。由于专有模型广泛部署于面向用户的场景,透明度的提升迫在眉睫。
当下,世界处于一个关键的转折点。今天做出的决策将在未来几十年中回响,随着AI技术的发展,地球气候也将愈加不稳定。我们希望,AI能源之星项目能作为一个有价值的起点,向整个AI价值链传递强烈的可持续发展需求。