Redian新闻
>
AI大模型背后的惊人数字:问ChatGPT 5个问题,耗水500毫升?训练一次GPT-3,碳排放量相当于开车往返月球?

AI大模型背后的惊人数字:问ChatGPT 5个问题,耗水500毫升?训练一次GPT-3,碳排放量相当于开车往返月球?

公众号新闻


编译 | 凌敏、核子可乐

ChatGPT 的爆火掀起了 AI 大模型热潮,但科技进步始终是把双面剑,AI 大模型带来诸多便利的同时,也引发了人们关于能源消耗与环境污染的担忧。此前,曾有研究称训练 GPT-3 的碳排放量等同于开车往返月球,也有研究称训练人工智能模型比长途飞行排放的碳要多得多。

能源消耗方面,构建大语言模型需要分析海量人类文章内容中蕴藏的模式,所有这些计算都要消耗大量电力并生成可观的热量。为了保持凉爽,数据中心需要泵水冷却,并将其存储在机房之外如仓库般大小的冷却塔中。

近日,外媒报道称,微软用于支持 OpenAI 的技术设施需要大量用水,这些水抽取自爱荷华州中部浣熊河和得梅因河的分水岭处,被用于冷却一台强大的超级计算机。一份研究显示,ChatGPT 这类 AI 大模型耗水量惊人:用户每向 ChatGPT 提出 5-50 条提示词或问题,ChatGPT 就会消耗掉 500 毫升的水。

问 ChatGPT 5-50 个问题,
耗水 500 毫升

日前,微软在其最新环境报告中透露,从 2021 年到 2022 年,公司全球设施用水量猛增了 34%(达到近 17 亿加仑,相当于 2500 多个奥运会级别的赛级泳池)。这个数字远远高于几年前外部研究人员的统计,而背后的驱动力量自然就是 AI 构建的需求。

对此,加州大学河滨分校研究员 Shaolei Ren 表示,“可以合理推断,(用水量)大部分增长要归功于 AI”,包括“对生成式 AI 的大量投入以及同 OpenAI 公司的合作。”

谷歌报告称用水量同比增长了 20%,Ren 认为这很大程度上也源自 AI 研究需求。当然,谷歌的用水量增长并不均匀——其俄勒冈州基础设施的用水量保持稳定,但拉斯维加斯周边地区的用量则翻了一番。爱荷华州同样成为用水大户,谷歌在这里的康瑟尔布拉夫斯数据中心消耗的水资源比其他任何地方都要多。

在即将于今年晚些时候发表的论文中,Ren 研究团队估计用户每向 ChatGPT 提出 5-50 条提示词或问题,ChatGPT 就会消耗掉 500 毫升的水(具体数字取决于基础设施所在位置和季节气候)。这一估算还未包含未经测量的间接用水,例如数据中心冷却电力所对应的发电耗水。

Ren 表示,“大多数人并不清楚 ChatGPT 的资源消耗情况。但如果我们不了解资源用量,就没办法帮助节约资源。”

据了解,微软于 2019 年向总部位于旧金山的 OpenAI 划拨了首笔 10 亿美元投资。随后,OpenAI 正式发布了 ChatGPT。作为合作协议的一部分,微软负责为 OpenAI 提供 AI 模型训练所需要的算力。

为了践行承诺,两家公司纷纷将目光投向爱荷华州的西得梅因——十多年来,这座拥有 6.8 万人口的市镇一直是微软的数据中心聚集地,负责为其云计算服务提供支持。微软的第四和第五处数据中心将于今年晚些时候在这里开放。

据了解,一年中的大部分时间里,爱荷华州当地的气候都相当凉爽,微软可以直接利用室外空气来保持超级计算机正常运行,并将产生的热量直接排放出去。该公司在一份披露报告中表示,只有在温度超过 29.3 摄氏度时,他们才需要切换为水冷模式。

但即便如此,当地设施在夏天的用水量仍然相当惊人。据西得梅因水厂介绍,2022 年 7 月,也就是 OpenAI 正式完成 GPT-4 训练的前一个月,微软向其爱荷华州数据中心集群泵入约 1150 万加仑的水,约占该地区总用水量的 6%。

2022 年,该水厂的一份文件提到,除非微软能够“证明并落实能够显著降低峰值期用水量的技术”,否则该公司及当地政府将不再“考虑批准微软未来的数据中心项目”。因为只有这样,他们才能保障当地住宅和其他商业运营的供水需求。

微软表示,他们正与水厂直接合作以解决对方反馈的问题。水厂方面则通过书面声明指出,微软一直是其良好合作伙伴,也始终在与当地官员合作,探讨如何在满足需求的同时减少水资源消耗。

大模型的碳排放量有多少?

除了能源消耗,ChatGPT 这类 AI 大模型的碳排放量也曾引发大众担忧。此前曾有计算机科学家称,GPT-3 整个训练周期的碳排放量,相当于开车到月球再返回地球;GPT-3 一轮训练所消耗的电量,足以支撑丹麦 126 个普通家庭度过一整年。

做出这一猜测的专家来自丹麦哥本哈根大学,他们开发出名为 Carbontracker 的开源工具,用于预测 AI 算法的碳足迹。Carbontracker 估计,微软数据中心内使用英伟达 GPU 构建的神经超级网络运行功率约为 19 万千瓦时,如果按照美国的平均碳排放水平计算,这将产生 8.5 万公斤(85 吨)的二氧化碳,相当于 2017 年制造一辆新车所产生的排放量。这样的排放量相当于车辆在欧洲行驶 80 万公里,基本相当于开车到月球再返回地球的总行驶距离。

Carbontracker 的创造者之一、AI 电力消耗研究论文联合作者 Lasse Wolff Anthony 认为,社区必须认真对待资源消耗问题。文章提到,从 2012 年到 2018 年之间,AI 研究的能源成本增长了约 30 万倍。

Anthony 在采访中表示,“二氧化碳估值是根据模型训练期间,当地发电的平均碳排放量再加上运行模型的硬件总功耗所计算得出。”“我们通过多个 API 来跟踪碳排放强度。如果模型训练所在地区没有 API 可用时,我们则会默认取欧洲平均值,因为目前还没有免费开放的全球监测数据。这些 API 会在训练期间定期查询硬件能耗,以准确估算总体碳足迹。”

当然,上述结果的前提是假设训练 GPT-3 的数据中心完全依赖于化石燃料,这跟实际情况可能有所出入。

有分析认为,当前大模型的碳排放量可能被严重夸大。事实上,全球科技行业占总体温气体排放量的比例仅为 1.8%-3.9%,而其中又只有一小部分与 AI 相关。在规模层面,AI 的碳排放还远无法与航空等其他主要碳源头相提并论。相较于随时运行的汽车和飞机,训练 GPT 这类模型所对应的碳排放量绝对称不上主要矛盾。

相较于随时运行的汽车和飞机,训练 GPT 这类模型所对应的碳排放量绝对称不上主要矛盾。诚然,目前我们并不清楚到底有多少大 AI 模型正在训练当中,但如果只考虑 GPT-3 或其他规模更大的模型,那么此类模型成果总计还不到 1000 个。这里我们可以做个简单计算:

最近一项评估认为,训练 GPT-3 排放了 500 吨二氧化碳,Meta 的 Llama 模型则估计排放 173 吨。如果训练 1000 个这样的模型,那么总二氧化碳排放量约为 50 万吨。2019 年,商业航空业排放了约 9.2 亿吨二氧化碳,几乎是大语言模型训练的 2000 倍。而且要注意,这是一年的航空业运营对比多年来的大语言模型训练。虽然后者的环境影响值得关注,但过度夸大明显有违客观公平,需要更细致地斟酌考量。

当然,这里讨论的还只是模型训练阶段。模型的运行和使用同样要消耗电力并产生相关排放。根据一项分析,ChatGPT 运行一年可能会排放约 1.5 万吨二氧化碳。但另一项分析结果则乐观得多,认为约在 1400 吨左右。但无论取哪个数字,虽然没有低到忽略不计的程度,但与航空业相比仍有几个数量级的差距。

需要强调的是,问题的重点并不在于探索 GPT-3 这类大模型的碳足迹,而是希望引起人们对于训练先进神经网络所消耗的巨量资源的关注。

目前,不少企业已开始重视能源消耗和环境污染问题,并在制定相应解决方案。微软在一份声明中称,正在资助研究以测量 AI 开发所对应的能耗和碳足迹,“同时致力于提升大语言模型系统的训练和应用效率。”

微软表示,“我们将继续监测自身排放、加快进展,同时更多使用清洁能源为数据中心供电、采购可再生能源,借此实现到 2030 年的碳负排放、水资源正循环和零浪费的可持续发展目标。”

OpenAI 也回应了这些评论,称正“认真考虑”如何更好地运用宝贵算力。“我们意识到训练大模型可能会消耗电力和水资源”,因此正在努力提高效率。”

需要建立透明的排放制度

随着 AI 系统的不断开发和应用,我们的确需要关注它对环境的影响。除了传统上行之有效的实践之外,我们还应探索出特定于生成式 AI 的减排思路。

首先,透明排放将至关重要。有了这种透明度保障,我们才能监控与 AI 模型训练和使用相关的碳排放量,确保模型部署者和最终用户能够根据这些数字制定 AI 使用策略。此外,还应将 AI 相关排放纳入温室气体清单与净零目标,将此作为 AI 整体透明制度的组成部分。

法国最近就通过一项法律,要求电信企业提交关于其可持续发展的透明度报告。类似法律未来可能要求采用 AI 技术的产品向客户报告其碳排放量,并要求模型提供商通过 API 开放碳排放数据。

更高的透明度将会带来更强有力的激励措施,借此建立起愈发节能的生成式 AI 系统,同时探索新的效率提升途径。InfoQ 最近发表的一篇文章提到,微软高级软件工程师 Sara Bergman 呼吁人们关注 AI 系统的整个生命周期,并建议采用绿色软件基金会提出的工具和实践以改善 AI 系统的能源效率。具体条款包括认真考量服务器硬件与架构选择、关注时间 / 区域间的发电排碳量差异等。更重要的是,生成式 AI 本身也有望在提高能效当中做出独特的贡献。

参考链接:

https://apnews.com/article/chatgpt-gpt4-iowa-ai-water-consumption-microsoft-f551fde98083d17a7e8d904f8be822c4

https://www.infoq.com/articles/carbon-emissions-generative-ai/

https://www.theregister.com/2020/11/04/gpt3_carbon_footprint_estimate/

 活动推荐

FCon 全球金融科技大会将于 11 月在上海开幕,会议聚焦当前金融行业遇到的问题,围绕金融企业在数字化转型过程中的痛点,例如数据治理,智能化、数字化风控,数字化投研,数字化营销,IT 技术能力等方向进行深入交流,扫码或点击「阅读原文」可查看全部演讲专题。

前 100 人可享 5 折特惠购票,咨询购票请联系:17310043226(微信同手机号)。

今日荐文

智谱AI最新估值突破100亿元;红杉减持美团,迄今套现超500亿港币;消息称9月30日前,阿里云将关停代销业务 | AI一周资讯


比 Spark 快 9 倍,超越 ClickHouse,在大语言模型时代构建全新数据平台


比Python快68000倍!Mojo正式发布,网友:Python生态系统最重要的升级来了


解锁大模型落地之道,你最 Pick 哪一个?


引领金融科技未来:德邦基金、太平洋健康险与万事达卡专家云集FCon大会


计算资源分配不公引发内斗!LLaMA核心作者流失大半,Meta AI联合主管也已离职



你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报印度“月船三号”仍失联,或将作为印度“月球大使”留在月球上;可与ChatGPT语音聊天 | 环球科学要闻11月7日,休斯顿选民可免费搭车往返投票站对话科大讯飞:不赚钱是 ChatGPT 的问题,不是大模型商业化的问题坐一次飞机回国相当于拍10次X光?!香蕉竟然是“辐射之王“?!周杰伦上海演唱会黄牛已无法卖票;威马车主称车机和钥匙已无法使用;中石油官员称1升汽油等于800毫升是假的...问ChatGPT:为什么我明明已经财务自由了,但却继续选择了创业?AI训练一次,把我家这辈子的电都用完了。。。关于“基医会”,我问了问ChatGPT男人也“外嫁”它曾是“北方第一城”,比厦门浪漫,比大连惬意,去一次相当于环游世界!OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线温哥华飞上海5个多小时,纽约到伦敦3.5小时!世界最快客机就要来了!零碳排放「姜子牙」大模型背后,一个专业 AI 团队的进化​TinyLlama-1.1B:从零开始训练一个精悍的语言模型相聚多伦多(三)移民第一课——不打labour不成活奥特曼投资前苹果员工创立,这家公司首款AI硬件炸圈,支持访问ChatGPT清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单温哥华飞上海5个多小时,纽约到伦敦3.5小时!世界最快客机就要来了?零碳排放「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练智能周报|OpenAI发布ChatGPT企业版,预计今年营收10亿美元;首批11家国产大模型「获批」,不包括阿里巴巴通义大模型美国想拿下重返月球竞赛,它们成为赢家——爆火后,“天津大爷”宣布不跳了!却才发现这座老城如此安逸好玩,去一次相当于环游世界!多措施促进全国碳市场第二履约期配额履约清缴——点评《关于全国碳排放权交易市场2021、2022年度碳排放配额清缴相关工作的通知》中年爱情2 倒霉的男人中石油直播称1升汽油等于800毫升?纯属谣传第六章 富国强兵和改革开放 (3)吹尽黄沙不见金(五十五): 一根麦管1v1-SSCI期刊论文发表指导:基于ARDL模型的经济结构与碳排放问题研究他培育的水稻品种,可节水50%减少九成碳排放 | 原来你是这样的科学家“年薪900W,4年买豪宅”恒大美女舞者被扒做“艺妓”?训练照不堪入目…背诵不等于理解,深度解析大模型背后的知识储存与提取生成式 AI 碳排放堪比开车往返月球?这个问题该如何解决
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。