一场技术的辉煌胜利：人工智能十年回顾

2023-06-02 06:06

作者 | Thomas A Dorfer

译者 | 核子可乐

策划 | 刘燕

从图像分类到聊天机器人心理咨询，我们亲眼见证了 AI 时代的起步、酝酿与全面爆发。

过去这十年，对于人工智能（AI）可算是一段激动人心、又荆棘丛生的坎坷之路。对深度学习潜力的浅浅探索，最终引发了 AI 全领域的爆发式增长。于是乎，有了电子商务中的推荐系统、有了自动驾驶汽车上的对象检测功能，也有了从创建逼真图像到输出连续文本的强大生成式模型。

在本文中，我们将沿着记忆的轨迹回到过去，重新审视那些带 AI 一路走来的关键性突破。无论您是经验丰富的 AI 从业者，还是单纯是对最新铺天盖地的 AI 宣传感兴趣，这都将是一段值得体验的回忆旅程。

2013 年：AlexNet

与变分自动编码器

2013 年如今被广泛认为是深度学习的“成熟元年”，推动这股浪潮的则是计算机视觉的重大进步。Geoffrey Hinton 在最近一次采访中坦言，到 2013 年“几乎所有计算机视觉研究都开始转向神经网络。”而这波繁荣期的开端，源自一年前图像识别领域一项令人惊讶的突破。

当时是 2012 年 9 月，深度卷积神经网络（CNN）AlexNet 在 ImageNet 大规模视觉识别挑战赛（ILSVRC）上创下新的历史纪录，用真凭实据证明了深度学习在图像识别任务中的潜力。其 top-5 错误率达到 15.3%，比位列第二的竞争对手低出 10.9%。

大获成功的底层技术不仅基本划定了 AI 的未来发展方向，同时也极大扭转了人们对深度学习的认知方式。

首先，作者用一个由 5 个卷积层加 3 个完全连接的线性层组成的深度 CNN——在当时，很多人都觉得这样的架构设计完全是不知所谓。此外，由于网络深度会产生大量参数，所以训练选择在 2 个图形处理单元（GPU）上并行进行，这也是 GPU 与大规模训练数据集成为黄金搭档的起点。通过将传统激活函数（sigmoid 和 tanh 等）替换成效率更高的整流线性单元（ReLU），训练时间得到了进一步缩短。

这些进步共同促成了 AlexNet 的成功，也标志着 AI 历史上的一个转折点，成功激起学术和技术界对深度学习的浓厚兴趣。正因为如此，许多人将 2013 年视为深度学习真正开始腾飞的转折点。2013 年的另一件大事则是变分自动编码器（简称 VAE）的出现。尽管在风头上无法与 AlexNet 相媲美，但作为一种能学会表示和创作图像和声音等数据的生成式模型，VAE 同样意义非凡。它们会在低维空间（即所谓潜在空间）中学习输入数据的压缩以对潜在空间进行采样，借此学习并生成新的数据。VAE 的诞生为生成式建模和数据生成开辟了新的路径，也开始在艺术、设计和游戏等领域得到应用。

2014 年：生成对抗网络

2014 年 6 月，随着 Ian Goodfellow 及其同事推出生成对抗网络（GAN），深度学习领域再次取得重大进展。

GAN 是一种神经网络，能够生成与训练集内容类似的新数据样本。从本质上讲，GAN 会同时训练两个网络：（1）生成器网络，负责生成伪造或者说合成的样本；（2）鉴别器网络，负责评估生成器输出的真实性。整个训练过程类似于游戏设置，生成器努力生成更逼真的样本来骗过鉴别器，而鉴别器则努力识别出那些虚假样本。

当时，GAN 代表着一种强大且相当新颖的数据生成工具，不仅可用于生成图像和视频，也在音乐和艺术创作中有所应用。GAN 甚至让不依赖显式标注而生成高质量数据样本成为了可能，为无监督学习的发展做出贡献，为这片有待开发、极具挑战的蓝海开辟了新航道。

2015 年：ResNets

与 NLP 突破

时间来到 2015 年，AI 领域在计算机视觉和自然语言处理（NLP）方面继续迎来长足进步。

何恺明及其同事发表了一篇题为《图像识别中的深度残差学习》的论文，介绍了残差神经网络，即 ResNets 的概念。简单来讲，这是一种通过添加快捷方式来让信息更容易通过网络流动的架构。跟常规神经网络中每一层都将前一层的输出作为输入不同，ResNet 中添加了额外的残差连接，这些连接会跳过一个或多个层并直接接入到网络中的更深层。

如此一来，ResNets 成功解决了梯度消失问题，让训练更深层的神经网络成为了可能——这是一项打破当时固有认知的巨大成就。以此为基础，AI 在图像分类和对象识别任务中的表现迈上新的台阶。

大约在同一时间，研究人员在循环神经网络（RNN）和长短期记忆（LSTM）模型的开发方面取得了长足进步。虽然这些概念自 1990 年代起就已经存在，但相关模型直到 2015 年左右才真正引起轰动。

这主要是因为：（1）到这时规模更大、多样性更强的训练数据集才开始出现；（2）算力水平和硬件配置持续改进，能够训练深度更大、复杂度更高的模型；（3）在此期间技术本身也有改进，例如引入更复杂的门控机制。

这些架构让语言模型能够更好地理解文本的上下文和含义，极大改进了在语言翻译、文本生成和情感分析等任务中的表现。当时 RNN 和 LSTM 带来的成功，也为我们如今熟悉的大语言模型（LLM）的发展铺平了道路。

2016 年：红极一时的

AlphaGo

继卡斯帕罗夫 1997 年负于 IBM 深蓝之后，又一场举世瞩目的人机大战在 2016 年拉开帷幕。这次的双方选手，分别是谷歌的 AlphaGo 与围棋世界冠军李世石。

李世石的失败也标志着 AI 发展史上的又一个重要里程碑：它证明在曾被认为过于复杂而无法由计算机处理的项目中，机器智能也已经能够击败哪怕最强大的人类选手。AlphaGo 采用的是深度强化学习加蒙特卡洛树搜索的设计逻辑，分析了围棋领域的数百万场对局，并最终评估出每一步的潜在最佳走法。这种级别的布局谋篇能力，已经远远超越了人类的决策极限。

2017 年：Transformer

架构和语言模型

2017 年可以说是 AI 发展的关键一年，为我们如今耳熟能详的生成式 AI 这一历史性突破奠定了基础。

2017 年 12 月，Vaswani 及其同事发表了基础研究论文《Attention is all you need》，其中介绍了利用自注意力概念处理顺序输入数据的 transformer 架构。这种架构能够更有效地处理距离较远的依赖关系，解决这一长期束缚传统 RNN 架构的挑战。

Transformer 由两个基本组件构成：编码器与解码器。其中编码器负责对输入数据进行编码，例如对单词序列做编码。之后，它会获取输入序列并应用多层自注意力和前馈神经网络，借此捕捉句子中的关系、特征并学习有意义的表示。

本质上，自注意力机制使得模型能理解语句中不同单词间的关系。而且跟以往按固定顺序处理单词的传统模型不同，transformers 其实是同时检查所有单词，并根据每个词跟句中其他词之间的相关性，为各词分配所谓“注意力得分”指标。

另一方面，解码器则从编码器处获取编码，之后产生输出序列。在机器翻译和文本生成等任务中，解码器会根据从编码器处接收到的输入生成经过翻译的序列。跟编码器类似，解码器同样由多层自注意力加前馈神经网络组成。但解码器还包含额外的注意力机制，用于专注处理编码器的输出，保证解码器在生成输出时考虑到来自输入序列的相关信息。

从此开始，transformer 架构开始成为大语言模型开发中的关键组成部分，也标志着自然语言处理领域全面飞跃的起点。机器翻译、语言建模和聊天问答由此翻开了新的篇章。

2018 年：GPT-1、

BERT 与图神经网络

在 Vaswani 等人发表论文的几个月后，OpenAI 于 2018 年 6 月发表了新的基础研究论文《Generative Pretrained Transformer》，也就是大名鼎鼎的 GPT-1。研究利用 transformer 架构成功捕捉到了文本中相距较远的依赖关系。在对特定自然语言处理任务进行微调后，GPT-1 成为首批能证明无监督预训练有效性的模型之一。

谷歌自然不会错过当时还相当新颖的 transformer 架构，于 2018 年底发布并开源了自己的预训练方法，全称为 Bidirectional Encoder Representations from Transformers，简称 BERT。与以往的单身文本处理模型（包括 GPT-1）不同，BERT 会同时在两个方向上考虑各个单词的上下文。为了更好地理解这个重要概念，论文作者提供了以下直观示例：

……在“我访问了银行账户”这句话中，单向上下文模型会将“我访问”的对象表示为“银行”、而非“账户”。但 BERT 却能结合前、后上下文正确将句子表示成“我访问了……账户”。具体来讲，BERT 从深度神经网络的最底部开始实现了深度双向解释。

这里“双向”的概念非常强大，也让 BERT 在各种基准测试中成功碾压了其他当时最先进的自然语言处理系统。

除了 GPT-1 和 BERT 之外，图神经网络（GNN）在当年也引发过不小的轰动。在设计上，这是一类专门用于处理图形数据的神经网络。GNN 利用消息传递算法在图的顶点和边之间传递信息，使得网络能够更直观地学习数据的结构和关系。

这项工作让 AI 模型能够从数据中提取更为深入的见解，扩大了深度学习所适用的问题范围。借助 GNN，AI 在社交网络分析、推荐系统和药物发现等领域再次取得重大进展。

2019 年：GPT-2

和更进一步的生成模型

2019 年的生成模型继续一路过关斩将，尤其 GPT-2 的亮相更令人眼前一亮。通过在诸多自然语言处理任务中的先进性能，这套模型取得了令同侪望尘莫及的成绩。此外，它还能生成极为顺畅的文本。事后来看，如今 GPT-3 和 GPT-4 取得的辉煌成就在当时就早有预兆。

领域内的其他改进包括 DeepMind 的 BigGAN，它生成的高质量图像几乎与真实图像没有任何区别。还有英伟达的 StyleGAN，它能更好地控制生成图像的外观效果。

总的来说，这些开启生成式 AI 时代的成果继续推动着 AI 时代的边界，而颠覆一切的大爆发也在悄悄积蓄着力量……

2020 年：GPT-3 和自监督学习

……此后不久，AI 模型界的新宠儿呱呱坠地，甚至在科技行业之外也引发了极强的破圈效应：GPT-3。该模型标志着大语言模型在规模和能力上的重大飞跃。家族老大哥 GPT-1 只有区区 1.17 亿参数，GPT-2 的参数量上升至 15 亿；而到 GPT-3，这个数字疯狂增长至 1750 亿。

更大的参数空间让 GPT-3 能够根据不同提示和任务生成极为连续的文本，也在各种自然语言处理场景下表现出令人印象深刻的性能，包括文本补全、聊天问答甚至是创意写作等等。

此外，GPT-3 再次强调了自监督学习技术的潜能。它允许模型利用大量未标注数据进行训练，从而获得对语言的广泛理解。由于无需针对特定任务进行大量训练，模型的经济性也有所改善。

“〈纽约时报〉报道了我最喜欢的话题：自监督学习——AI/ 深度学习领域的最新热潮。”Yann LeCun 点评《纽约时报》的自监督学习报道文章。

2021 年：AlphaFold 2、

DALL-E 与 GitHub Copilot

从蛋白质折叠到图像生成和自动编码辅助，随着 ALphaFold 2、DALL-E 和 GitHub Copilot 的相继问世，2021 年注定是 AI 领域不平静的一年。

AlphaFold 2 被誉为攻克困扰人类数十年之久的蛋白质折叠问题的破局利器。DeepMind 的研究人员扩展了 transformer 架构并打造出 evoformer 模块（利用进化策略进行模型优化的架构），最终构建起一套能够根据蛋白质的一维氨基酸序列预测其 3D 结构的模型。这一突破具有巨大潜力，有望彻底改变药物发现、生物工程甚至是人类对于生物系统的理解方式。

这一年，OpenAI 还发布了 DALL-E 并再次成为新闻焦点。从本质上讲，这套模型将 GPT 风格的语言模型和图像生成概念结合了起来，能够利用文本描述创造出高质量图像。

这套模型到底有多强？大家不妨参考下图，这就是 DALL-E 根据提示词“用油画风格描绘科幻世界中的飞行汽车”生成的结果。

DALL-E 模型生成的画作。

最后，GitHub 发布了如今每位开发人员都耳熟能详的编程好伙伴：Copilot。这项工作由 GitHub 与 OpenAI 合作实现，由 OpenAI 提供底层语言模型 Codex。Codex 模型利用大量公开可用的代码语料库进行训练，借此掌握了理解并生成各种编程语言代码的能力。开发人员只需简单通过代码注释来说明自己想通过 Copilot 解决怎样的问题，Codex 模型就会回以相应的代码建议。Copilot 的其他功能还包括按自然语言描述生成代码，以及在不同编程语言间翻译代码内容。

2022 年：ChatGPT

与 Stable Diffusion

过去十年间，快速发展的 AI 终于踢出临门一脚：OpenAI 的 ChatGPT 是一款聊天机器人，于 2022 年 11 月正式发布。这款工具代表着自然语言处理领域的前沿成就，能够生成连续且与上下文相关的响应结果，同时具备极强的查询和提示适应能力。此外，它还能与用户对话、提供解释、输出创意建议、协助解决问题、编写和解释代码，甚至模拟不同的个性或写作风格。

凭借简单直观的聊天机器人交互界面，ChatGPT 在世界各地的不同群体中激发了一波体验浪潮。以往，最新的 AI 发明大多只是技术社区内部的“小玩具”。但如今，AI 工具已经渗透到几乎所有专业群体，包括软件工程师、作家、音乐家和广告商。不少企业还利用这套模型推动服务的自动化改造，例如客户支持、语言翻译或者常见问题解答。事实上，这波自动化冲击来得太快太猛，已经引发了人们的担忧以及哪些岗位可能被 AI 自动化所淘汰的全民大讨论。

虽然 ChatGPT 在 2022 年堪称绝对的主角，但图像生成领域也一刻没有停止过发展的脚步。Stability AI 在这一年发布了 Stable Diffusion，这是一种基于潜在空间的文本到图像扩散模型，能够按照文本描述生成逼真的图像。

Stable Diffusion 是对传统扩散模型的进一步扩展，其工作原理是向图像中迭代添加噪声，再反转整个过程以恢复数据。不同于直接对输入图像进行操作，Stable Diffusion 会对图像的低维表示或潜在空间进行操作，借此加快整个过程。此外，模型还会将来自用户的嵌入文本提示词添加至网络内以修改扩散过程，使其能够在每次迭代中都指导图像的生成过程。

总体而言，2022 年亮相的 ChatGPT 和 Stable Diffusion 凸显出多模态、生成式 AI 的巨大潜力，也让 AI 领域获得了进一步发展和吸引投资的驱动力。

2023 年：大语言模型和机器人

毫无疑问，今年已经成为大语言模型和聊天机器人遍地开花的一年。更多模型正以越来越快的速度发展壮大、进入公众视野。

例如，今年 2 月 24 日 Metal AI 发布了 LLaMA——尽管参数规模远低于 GPT-3，但这套语言模型的大部分基准测试中仍成功实现反超。不到一个月后的 3 月 14 日，OpenAI 发布了 GPT-4——比 GPT-3 体量更大、更强的多模态版本。虽然目前还不清楚 GPT-4 的参数数量，但推测可能已达万亿级别。

3 月 15 日，斯坦福大学的研究人员发布了 Alpaca。这是一种轻量级语言模型，是通过指令跟随演示对 LLaMA 做微调后的产物。几天后的 3 月 21 日，谷歌也推出了与 ChatGPT 正面对垒的产品 Bard。谷歌还在 5 月 10 日发布了另一套最新大语言模型 PaLM-2。随着语言模型领域的快速发展，大家在读到本文的同时，可能更多后起之秀正在迅速积蓄力量。

越来越多的企业也开始将语言模型融入自家产品。例如，Duolingo 也公布了基于 GPT-4 模型的 Duolingo Max，这项新的订阅服务将为每位用户提供量身定制的语言课程。Slack 也推出了 AI 助手 Slack GPT，能够草拟回复内容或者对之前的话题做出概括。此外，Shopify 还为公司的 Shop 应用引入了基于 ChatGPT 的智能助手，可帮助客户通过各种提示词提炼出相应的产品。

Shopify 发推公布基于 ChatGPT 的购物助手。欢迎您的全新购物助手：Shop 应用的 ChatGPT 助手已经就绪，将与您讨论产品、消费趋势甚至是生活的意义。

有趣的是，如今 AI 聊天机器人甚至开始推动心理治疗师的大众化普及。美国聊天机器人应用 Replika 就在为用户提供“关心他人的 AI 伴侣，它永远在线，倾听你、回应你、相伴左右。”公司创始人 Eugenia Kuyda 表示，这款应用面向不同类型的客户群体，包括自闭症儿童、想交新朋友的孤独成年人等。

在做总结之前，我想强调一下可能是这十年来 AI 技术变革的收官之作：Bing！今年早些时候，微软基于 GPT-4 将 Bing 打造成“Web 版 Copilot”。这款产品针对搜索进行了定制，而且第一次给搜索业务的长期霸主谷歌带来了一点小小的 AI 震撼。

回顾与展望

回顾过去十年间的 AI 发展，我们明显身在其中并亲眼见证了这场意义深远，甚至彻底改变了我们工作、经营和交互方式的技术革命。

生成模型（特别是大语言模型）近期取得的大部分重要进展，似乎都秉承了“越大越强”的普遍观点。也就是说，模型的参数空间越大，实际性能越好。这一点在 GPT 家族中体现得尤其明显：从 1.17 亿参数的 GPT-1 开始，每个后续模型都将参数提升到了新的数量级，并最终迎来参数可能达到万亿之巨的顶峰 GPT-4。

但根据最近的一次采访，OpenAI 公司 CEO Sam Altman 认为“越大越强”这条道路可能已到尽头。展望未来，他虽然承认参数数量将继续上升，但后续模型的主要改进重点将放在提高模型能力、实用性和安全性等层面。

这里的安全性尤其重要，毕竟这些强大的 AI 工具已被掌握在公众手中，不再是过去那种只供实验室研究的“学术玩具”。所以我们比以往任何时候都更应该谨慎行事，确保这些工具安全可靠且符合人类利益和福祉。希望 AI 安全也能获得与其他探索方向相匹配的发展和投入。

备注：如果各位发现我在文中遗漏了某些核心 AI 概念或者重要突破，请在评论中不吝分享，感谢大家！

原文链接：

https://towardsdatascience.com/ten-years-of-ai-in-review-85decdb2a540

活动推荐

2023 亚马逊云科技中国峰会，将于 6 月 27 日 - 28 日，登录上海世博中心！

这里有：