创业笔记:气候行业是大模型创业的最好场景之一
“气候问题是一个数据问题,大模型真正带来了把方案 Speed and Scale 的可能性。”
-- K.W
Unobvious facts about the climate intelligence industry, as seen through the eyes of researchers, entrepreneurs, and climate optimists
大模型时代下, “If you can say it, you can do it" | 极具雄心,脚踏实地
作者: K.W, Canhui, Mingfei (Climind 团队)
严重被低估的气候数据行业
气候变化波及几乎所有行业,然而这篇文章我们从金融行业说起。
气候变化与气候数据行业本质的问题是什么?
reimagining climate solution
2020年,中国的“3060”碳达峰与碳中和目标几乎在一夜之间催生了“碳中和”行业。接下来的两年,众多创业公司和投资者纷纷涌入市场,擦边的外行也一边质疑一边挤入“碳中和赛道”。从2020年至2022年,我作为创始成员做了一个碳盘查软件,与国内知名的碳核查机构和碳交易所接触,花了几个月和海内外的项目开发方、Broker ( 中间商) 沟通交流。最大的感悟是,这是一个充满信息不对称的“信息差盈利 information gap as a business ”行业,距离“产品带动增长”是很遥远的。信息差产生了咨询需求,进而又产生赚取大部分利润的信息搬运工。从2020年到2022年底,市场上琳琅满目的双碳产品和服务背后,是行业内外人士的焦虑传播,但似乎没有太多真正致力于气候适应和减缓的举措被实施。
John Doerr 是气候与量化的重要推动人 (推荐一个他在 TED Countdown 上的演讲, How to decarbonize the grid and electrify everything )2022 年 John 也在他的书《Measure what matters》中直接把气候问题与解决方案量化拆解成了 OKR 的形式。
6 个大的气候目标
食物,电气化我们的交通,电网脱碳、行业脱碳,基于自然的解决方案、政策、行动,创新 ,气候投资
气候风险是怎么被 Climate Scientist 量化的?
为什么做气候变化的解决方案如此艰难?Richard Feynman 这句话给了哲学层面很好的解释,“人类能想的远远多于能表达的,能表达的远远多于能做的”。在气候变化议题上,压倒性的科学共识是人类活动导致全球变暖,但网络社区传播的信息往往良莠并存,倘若没有合理的动力,那企业和个人能做的就寥寥无几了。因此最好的气候解决方案应该是鼓励减碳的行为,而非只是惩罚破坏环境的行为。
我们能精确预测和计算气候变化的影响吗?气候领域数据的多模态与复杂性导致了地球系统很难在小尺度上预测,即使downscale能做出一定的预测,目前能够和大部分人有关系的可能就是天气预报和一定程度的灾害预警。但各个学科的专家还是试图用更容易理解的方式来描述温室气体带来的影响,用经济层面的例子,经常见到的情景分析( scneario analysis ) 和气候压力测试 (stress testing),评估气候相关风险与经济成果的联系的关键工具,来评估对金融稳定和单个金融机构的影响, 帮助管理和减轻气候变化带来的金融风险。对于量化气候风险,至少目前为止在传统行业小范围基础上能做的是非常有限的。
宏观的层面是能够一定程度描述气候风险的。2013 年开始,英国政府推动了一个气候全球计算器,是世界能源、土地和粮食系统的开源模型,允许用户模拟不同人类活动和场景对温室气体排放和全球气候变化的影响,这是一个很好的开始。政府间气候变化专业委员会(IPCC)的报告是业内的必读,结果成百上千的科学家逐字审阅,但能看到 IPCC 所使用的都是概率性表达方式 ( 熟悉统计概率的读者可能注意到其措辞:Likely, highly likely etc.),没有绝对的定量结论,这也反映了气候风险是很难精确描述的,尤其是宏观范围。
市场是敏捷,但气候问题实在是太复杂了,对于气候变化的监管也滞后于问题的出现。这里借用一下 Sam Altman 对于趋势的判断,“如何区分一个真的趋势和假的趋势,一个真的趋势是,你的用户开始在推荐你的产品”,这也会反映在市场和公司的增长数据中,过去的2-3 年,几乎每一年都有几起气候数据的收并购案例,也有源源不断的创业公司诞生。
一般以路演为目的的数字可能会这么计算:
我们整理了一下这个行业目前的解决方案和公司,包括咨询和技术公司,以海外市场为主(国内市场以后另写)。
COP26 的会议上,Al Gore 牵头成立了 Climate Trace,一个由非营利组织、科技公司和大学组成的全球联盟,旨在改善二氧化碳和甲烷排放的监测、报告和验证 (MRV)。Climate Trace 的一个发起方是一个伦敦的NGO叫做 Transition Zero,用户大部分是政府,资金来源也以 NGO 和科技巨头为主 (这也是一个神奇的机构,之后有机会再写),前几个月我和 Transition Zero 的CEO (Matt) 一起在帝国理工给学生做了一场讲座,在业内 Transition 的数据质量是非常受到认可的,也参与发表了一些有分量的文章,Matt 这几年的关注也都在发展中国家,最近盯上了中国的煤炭产能和披露。
气候变化是一个复杂系统。
气候数据往往是多模态而互相影响的,学术圈有很多研究 downscall 气候影响的话题,在行业角度,企业拿到的气候数据往往不能直接使用。
开源不能完全解决 transparency 和 integrity 问题,但气候数据开源是不可避免的。所以,加工倒卖二手气候数据的公司会被消灭;
任何一个行业都会和气候变化有业务关系,并且企业相比政府与公共部门会扮演更重要的角色;
因为气候变化因素的影响,所有金融业务需要重新做一遍,数据是关键;
气候数据行业会被懂气候的人工智能公司颠覆,大模型的发展加速了这个过程;
对于气候数据的交互方式将会发生改变;
建立气候金融领域的大模型是必要的,但不仅仅是因为数据安全与隐私问题。
气候数据正在诞生一些变革性的公司和项目,并且这是一个有 deadline 的赛道,别再说双碳是PR了!
粮食危机之下的数据智能胜出者 :Gro Intelligence
Gro Intelligence 是在气候风险预测的领域目前最受关注的公司之一,由 Sara Menker 于 2014 年创立,使用人工智能来预测全球粮食系统。碰巧遇上了全球粮食危机,而且成功的提前预测,让这个公司一炮而红。
Sara 在2022年 FII举办的圆桌上和老牌金融巨头同台,苏世民,Jamie Dimon, David Solomon(视频 )也充分看到了气候风险在实际的改变金融行业格局
金融行业的大模型应用:Bloomberg & BloombergGPT
金融企业的开源气候数据平台:OS Climate
OS Climate 一定是一个意想不到的惊喜,是Linux 基金会支持的开源气候数据库。两年多以来机构一直在 COP 上呼吁共享高质量气候数据,也做了很多技术分享,Linux 基金会的 CTO 也亲自带这个项目。
从最新的进展来看,还是有一些定制化的问题没办法面面俱到,比如最近公开的 PCAF 金融排放数据集,实际作用有待考证,毕竟 PCAF 本身也不是监管规定的核算方法学。而且这一类问题往往最后难在获取能耗数据,不是一个计算问题。
重点是,当开源的数据质量更好了,那还需要购买昂贵的金融气候数据吗?
碳市场的数据平台:世界银行 & IETA打造 “meta-carbon registry"
https://climateactiondata.org/
比尔盖茨创建的突破能源基金 “Breakthrough Energy"
突破能源基金会(Breakthrough Energy)由比尔·盖茨创建,旨在激励全球实现净零排放,开发和推广所需的关键技术。徐博士领导团队,致力于研究净零途径并构建相关开源软件,从而实现可再生能源转型。
国内关于 Breakthrough 的新闻并不多,但自成立以来这个神秘的机构硕果累累,从科研到孵化初创,一直到媒体都有他们的身影。日前Talks at Climind(一档由Climind团队创立的博客栏目,目前已上架Podcast和小宇宙,欢迎关注)邀请了突破能源基金会首席科学家徐熠兴博士,分享能源系统建模的最新成果。
在节目中,徐博士表示,他是9年前进入清洁能源转型领域,开始着手能源系统项目。当时行业内几乎没有任何相关活动,但一些领导者已经在考虑该问题,比尔-盖茨是其中一位,另一位是微软的前首席技术官内森·米尔伍德。内森后来创办了自己的公司,叫Like Intellectual Ventures,旨在应对气候变化的挑战。但在当时,美国电力系统中几乎没有任何创新,能源系统模型的可信度不高,人们无法了解当前需要面对的挑战,以及未来十到二十年的挑战。即使大家担心或关注未来会发生的事情,也没有任何工具可以量化分析。在这样的背景下,徐博士开启了能源系统建模的相关故事。
Richard Feynman: What I cannot create, I do not understand
自从 ChatGPT 推出,几乎每天一个 Holy * moment,但是目前其实还没有看到To B领域非常成熟的产品,我们相信气候领域会是一个非常适合的场景。
短期:改变咨询 - 重构服务
通过自然语言交互的方式做定制化的 Climate Copilot
气候目前还是一个“咨询”产业,基于信息差的商业模式和重复劳动是最容易被取代的,对于信息报告的信任和背书都是企业的品牌在背书,包括气候数据也是基于“背书”的逻辑。辅助与一定程度替代咨询这只是个时间问题,对于初创公司来说或许会有一定信任门槛,所以高质量的数据源至关重要。
GPT-4 给人的感觉就像一个粗心但博学的咨询师,打字很快,知道很多知识,但是容易混淆。但实际场景中,人们需要也并不是一个完全的替代,而是一个24小时工作的高效定制顾问。如果能通过对话的方式呈现,那极大降低了成本而且有巨大的知识储备。
中期:气候数据表达的重构 - 重构信息与检索
我们指的是两个方面的信息与搜索.
1. 让复杂的信息更容易给人用
大模型与多模态数据库的交互来实现更精准更简单的信息搜索;
目前气候信息的呈现并不是按照大部分人理解的角度去解读与呈现的,比如遥感信息;
LLM 的一大价值在于他们总结和组织信息的能力。The Killer Use Case for LLMs Is Summarization.
正如网络彻底改变了我们查找、消费和消化信息的方式一样,气候领域也将如此。然而与网络不同,LLM 将实际解释我们的信息,而不仅仅是提供一种传播、索引和发现信息的方式。
2. 重构气候数据呈现的方式和可能是优化大模型的新思路
大模型需要的可能不一定是结构化的信息;
GPT2,3 的训练依赖于tokenization,把数据统一成token stream,对信息没有进行人类可理解的结构化处理。结构化的信息是人理解世界的方式,不一定是二进制的计算机理解的方式;
Positional encoding,尤其是对于图像信息,通过构建机器更容易运行的数据,保留更关键的信息,加入大模型训练,从而提升大模型训练的效果;
假设未来 5-10 年大模型不会被颠覆,重构气候数据会成为模型的“utility”;
Domain knowledge 会是涉及新的数据结构的关键.
长期:AI for Climate Science - 重构气候风险评估体系
人类对于气候风险的了解是非常初级的,尽管有复杂的模型和情景分析被创造出来尝试描述这一问题。我们认为,只有能精确描述个体和公司的气候风险,模型的结论才具有实际意义。
相比生物,气候变化作为一个同样未知而充满紧迫感的领域,气候领域的 AlphaGo 还未诞生,这也是 Climind 团队长期的研究方向 - AI for Climate Science。
最后,如何拥抱变化?
"There are decades where nothing happens; and there are weeks where decades happen"
-- Vladimir Ilyich Lenin.
LLM 时代,如果做一些有用的气候数据产品?两种思路,一种做的事情刚需,迅速提升技术壁垒和市场份额;另外一种,这是个全新的市场和领域。气候主题时代下的市场,两者都是。
有关我们
Climind 有一个浪漫的中文名字 - 蓝点起源, 致敬 Pale Blue Dot
1990年2月14日,美国国家航空航天局(NASA)的旅行者 Voyager1号太空船在飞离太阳系的过程中向着它背后的一次回眸,是它在距离它的母星地球64亿公里外给太阳系拍摄的一组全家福照片当中的一张,当中地球的大小只占整张照片的0.12像素。美国著名天文学家卡尔·萨根 Carl Sagan 博士因这张照片得到灵感,写成了《暗淡蓝点 Pale Blue Dot》。在“暗淡蓝点”(Pale Blue Dot)照片上,地球是孤悬于广袤空间中的一个淡蓝色像素。阳光散射而成的条纹铺成背景,其中一道恰好穿过了地球。
更多内容,点击下方关注:
微信扫码关注该文公众号作者