2022 剑桥 AI 全景报告出炉：扩散模型是风口，中国论文数量为美国的 4.5 倍

2022-10-28 11:10

作者 | 黄楠、施方圆

编辑 | 陈彩娴

近日，剑桥大学的2022年 AI 全景报告（《State of AI Report 》）出炉！

报告汇总和聚焦了过去一年里 AI 行业中炙手可热的事件，援引数据来自知名科技公司和研究小组，由投资者 Nathan Benaich 和 Ian Hogarth 编写，从研究、产业、政策、安全、预测五个维度出发，对最新的 AI 发展现状和未来预期进行深度分析。

以下是报告重点介绍：

扩散模型火热、模型开源提速

从研究领域来看，今年 AI 发展呈现五大趋势：

基于文本到图像的生成能力，扩散模型（Diffusion Models）席卷计算机视觉世界

扩散模型是深度生成模型中新的 SOTA，在一些基准测试中，其图像生成能力超越了 GAN，是当前文本生成图像最火热的模型，并逐渐扩大到文本生成、文本转音频、文本转视频以及分子设计等领域。

今年4月，OpenAI 发布 DALL-E 2，只需要给到寥寥几句文本指示就可以生成全新的图像，刚亮相就在图像生成和图像处理领域引发极大的关注度。不久，谷歌也紧接着推出的 Imagen，基于大型 Transformer 语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力，将文本生成图像的逼真度和语言理解提到了新高度。

而真正将生成式 AI 推向创作高潮的，是 Stability.Ai 在8月份公开发布的 Stable Diffusion 模型，只需输入几行文字描述，几秒钟后，AI 便能生成一幅幻彩斑斓的画作。

可以看到，目前 Stability.ai 和 Midjourney 等公司所创建的文本转图像模型，已经可以跟发展成熟的 AI 实验室的产品相媲美，其中，Midjourney 采用了订阅制的收费模式已经盈利，Stability 的模型则是开源的。

图注：Stable Diffusion 生成图像

此外，基于扩散的文本到视频生成的研究也从今年4月左右就展开了。

9月下旬，Meta 发布“Make-a-Video”，宣布了从文本到视频生成的 DELL-E 时刻早于预期，文本转视频的扩散模型首次在业界引起轰动。不到一周后，谷歌也发布了两个模型：基于扩散模型的 Imagen 和非扩散模型的 Phenaki，后者能够通过附加提示动态来调整视频生成。

AI for science，聚焦塑料回收、核聚变反应堆控制和天然产物发现等更多科学问题

在 AI for science 研究中，今年有不少突出的工作。

其中，DeepMind 与悉尼大学、牛津大学合作，将 AI 模型应用到数学领域的拓扑和表示论猜想，提出了一种新的算法，通过研究纽结的结构，发现数学在不同领域中的隐藏联系，该研究发表在《自然》杂志上。

图注：纽结结构

一年前，DeepMind 发布 AlphaFold2，以原子水平的准确度预测了三分之二的蛋白质结构，并与 EMBL-EBI 共同发布蛋白质结构数据库 AlphaFold DB。

到了今年7月28日，DeepMind 宣布 AlphaFold DB 已从 100 万个结构扩展到超过 2 亿个结构，扩大超过 200 倍，可用于植物、细菌、动物和其他生物的蛋白质预测结构，极大地提升了人们对于生物学的理解。

在塑料回收方面，来自 UT Austin 的研究人员设计了一种能够降解 PET 的酶（PET 是一种占全球固体废物12%的塑料），称为 PET 水解酶（ FAST‑PETase），能够在一周内几乎完全降解51种不同产品，并且还可以从回收的单体中重新合成 PET FAST‑PETase。

标度法则重新聚焦数据：模型标度并不是全部都需要的，朝单一模型发展，其核心在于数据

对于通用多任务、多模式模型的尝试，可以追溯到谷歌此前提到的“一个模型来学习”。

此前有研究发现，LLMs 可实现让机器人通过自然语言对每个步骤的解释来完成各种任务，但由于对机器人所处环境和现实能力缺乏认知，LLMs 的解释时常会出现无法被理解的情况。随着 PaLM-SayCan 的出现，这一问题也已经得到解决。

DeepMind 推出的 Gato 将这项工作带到了另一个层次，通过一个1.2B参数转换器，可以实现在机器人、模拟环境、视觉和语言中执行数百项任务。

此外，Transformer 作为一种解码器架构，当前其影响力已经超出 NLP，在计算机视觉上也发挥着重要作用，正在成为真正的跨模态产品。

图注：与 Transformer 相关的论文占比

社区驱动的大型模型开源速度加快，集合模式可以参与同大型实验室的竞争

OpenAI、DeepMind 旗下有多个模型已被开源社区实现、克隆和改进，进度远超预期。

图注：社区驱动的 GPT 等开源

尽管 AI 研究将越来越集中于少数大型实验室，但随着计算成本和访问权限的降低，因此也出现了最先进的研究在更小、以前不为人知的实验室得到提出等情况，同时，这些新的独立研究实验室也在迅速开源。

受神经科学的启发，AI 研究方法向认知科学的方向发展

图注：中美 AI 论文数量对比

数据显示，自2010年以来，中国机构撰写的 AI 论文数量是美国的4.5倍，远远超过美国、印度、英国和德国的总和。

同时，中国的论文更关注与监控相关的任务，包括对象检测、跟踪、场景理解、动作和说话者识别等。

AI 初创公司投资放缓

新贵 AI 半导体初创公司与英伟达相比是否有作为？

报告显示，英伟达的芯片在 AI 研究论文中最受欢迎， GPU 的使用率是 ASIC 的131倍，是 Graphcore 、 Habana 、 Cerebras 、 SambaNova 和 Cambricon 的芯片总和的90倍，是谷歌 TPU 的78倍，是 FPGA 的 23 倍。

图注：英伟达芯片在 AI 论文中的引用数量

招聘冻结和 AI 实验室解散，促使许多初创公司从 DeepMind 和 OpenAI 等巨头中诞生

DeepMind 和 OpenAI 的校友各自开花，组建了许多新的初创公司，分别研究不同领域的 AI 技术，如：AGI 、人工智能安全、生物技术、金融科技、能源、开发工具和机器人技术。

图注：由 DeepMind 和 OpenAI 分解出来的初创公司

最新 AI 技术被大型科技公司和初创公司转化为商业开发人员工具

OpenAI 的 Codex 迅速从 2021 年 7 月的研究演变为 2022 年 6 月的开放商业化，微软的 GitHub Copilot 现在以每月 10 美元到每年 100 美元。亚马逊在 2022 年 6 月发布了 CodeWhisperer 预览版。谷歌透露，其内部正在使用以 ML 驱动的代码完成工具，也许几年内会出现在浏览器 IDE 中。同时，拥有 100 多万用户的 Tabnine 筹集了 1500 万美元，承诺有望实现准确的多行代码填写。

人工智能加快药物研发，促进医疗产业发展

人工智能药物发现公司在临床试验中拥有 18 项资产，高于 2020 年的 0 项。

图注：每家公司各个阶段的资产数量和资产百分比

另外，由于放射科医生的短缺和成影数量的增加，通过评估X光片针对疾病变得更有挑战性。因此立陶宛初创公司 Oxipit 创建了一个名叫 ChestLink 的计算机视觉系统，该系统可以自动报告没有异常的胸部 X 光片，就无需放射科医生来检查，这是业界首个基于计算机视觉的诊断自主认证。

大学是孕育人工智能公司的温床

目前，大学是人工智能公司重要的资源来源，包括 Databricks 、 Snorkel 、 SambaNova 、 Exscientia 等。在英国有 4.3% 的人工智能公司是大学拆分出来的，是所有英国公司的 0.03% ，人工智能是能够拆分的代表性行业之一，通常这需要高昂的代价，技术转让办公室（TTOs）通常就拆分交易条款进行谈判。

随着市场的扩大，对AI初创公司的投资速度在放缓

与去年相比， 2022 年预计使用AI的公司融资额将减少36%，但仍有望超过 2020 年的水平，这与全球所有 Start-up 阶段和 Scale-up 阶段的公司投资相当。

VC 投资的下降在 1 亿以上的轮次中最明显，而投资规模较小的轮次预计到 2022 年底全球将达到 309 亿美元，与 2021 年的水平相当。

综合公共企业价值（EV）已经下降到 2020 年的水平。同时，私营企业的估值不断增长，综合企业价值已经达到 2.2 万亿美元，比去年增长 16% 。

图注：对 AI 初创公司的投资（按轮次）以及对所有初创公司的投资（按轮次）

目前美国的AI独角兽公司数量领先，其次是中国和英国。美国已经创造了 292 家 AI 独角兽公司，企业价值合计 4.6 万亿美元，中国创造了 69 家 AI 独角兽公司，企业价值合计 1.4 万亿美元，英国创造了 24 家 AI 独角兽公司，企业价值合计 2070 亿美元。

图注：各个国家独角兽企业数量以及独角兽企业

尽管对于美国 AI 初创公司的投资大幅度下降，但它们仍然占全球人工智能总投资的一半以上。

图注：对 AI 公司的投资金额

企业软件是全球投资最多的类别，而机器人技术占据了 AI 风险投资的最大份额。

图注：各个领域投资金额

尽管 IPO 和 SPAC IPO 的数量急剧下降，但 AI 公司的收购数量可能会超出 2021 年的水平。

图注：全球 AI 公司的退出数量，以及 2022 年退出的 AI 企业

对未来一年的预测

在2021年的报告中，曾对2022年 AI 的发展情况做出了8项预测，其中已实现 Transformers 在游戏中超过人类表现，这主要得益于 DeepMind 的 Gato 模型可实现对未来状态和动作的预测，日内瓦大学提出的 IRIS 模型则解决了 Atari 环境下的任务。

未实现的预测中提到，Graphcore、Cerebras、SambaNova、Groq、Mythic 中至少有一家被大型科技公司或者半导体公司收购，在今年也没有实现；ASML 的市值当前仅为1650亿美元，距预期中的5000亿美元还存在很大差距；JAX 框架的使用仍然占 Papers With Code 每月回购的不到1%，未达到预测中的5%。