Redian新闻
>
ChatGPT的“底座”Transformer诞生六周年:在它之后世界地覆天翻

ChatGPT的“底座”Transformer诞生六周年:在它之后世界地覆天翻

公众号新闻
作者Neil Shen
邮箱[email protected]
理解了人类的语言,就理解了世界。
一直以来,人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式,但进展始终不大。
因为人类的语言太复杂,太多样,而组成它背后的机制,往往又充满着不可名状的规律。
过去人们在自然语言处理中多采用 RNN 循环神经网络,它十分类似于人类逻辑上对语言的理解——强调上下文顺序、前后文逻辑关系。
但是这种顺序方式让 RNN 无法实现并行计算,也就是说,它的速度十分缓慢,而规模也很难扩大。
直到 2017 年 6 月 12 日,一篇名为Attention is All You Need的论文被提交到预印论文平台 arXiv 上。
一切从此改变。
Transformer 的提出直接导致导致了现在生成式 AI 风暴。机器好像在一瞬间就学会了如何与人类自如交流。
在Transformer提出前,人们讨论的是如何让智能音箱听懂你的提问,而Transformer之后,人们讨论的重点变成了该如何防范AGI 通用智能对人类造成的危险。
Attention is All You Need这篇论文的重要性可见一斑,刚刚过去的 12 号正是它六周岁生日。
Transformer 这个名字据说来自论文联合作者之一的Llion Jones,原因无它,因为 attention (注意力)这个词听上去实在是有点不酷。
Llion Jones 也是目前八个论文联合作者中唯一一个还在谷歌上班的人。剩下的七个人都纷纷离职创业。最有名的大概是Character AI,创始人是论文作者之一的Noam Shazeer,他之前在谷歌工作了 20 年,负责构建了 LaMDA。
那么Transformer 究竟有什么点石成金的魔力呢?我们尽量用通俗易懂的话来解释。
Transformer 彻底抛弃了前面提到的 RNN 循环神经网络这套逻辑,它完全由自注意力机制组成。
大家都有过这样的经验,打乱个一子句中字词序顺的多很时候不并响影对你句子的解理。比如上面这句。
这是因为人脑在处理信息时会区分权重,也就是说,我们的注意力总是被最重要的东西吸引走,次要的细节则被忽略。
Transformer 模仿了这一点,它能够自动学习输入的序列中不同位置之间的依赖关系并计算其相关性(而不是对整个输入进行编码)。这让针对序列的建模变得更加容易和精准。
在深度学习中引入这种机制,产生了两个明显好处。
一方面,并行计算得以实现,基于Transformer架构的模型可以更好地利用 GPU 进行加速。由此,Transformer为预训练模型的兴起奠定了基础,随着模型的规模越来越大,神经网络开始出现所谓“智能涌现”,这正是人们认为像 GPT 这样的大模型打开了 AGI 通用人工智能大门的原因。
另一方面,尽管最开始Transformer的提出是被用来解决自然语言,更准确地说,机器翻译问题,但很快人们就发现,这种注意力机制可以推广到更多领域——比如语音识别和计算机视觉。基于Transformer的深度学习方法实际上适用于任何序列——无论是语言还是图像,在机器眼中它们不过是一个个带规律的向量。
在这两种优点的共同作用下,人工智能领域迎来了前所未有的爆发,后面的故事我们都知道了。
下面是关于Transformer的几个 fun facts。前面三个来自英伟达 AI 科学家 Jim Fan 庆祝Transformer架构被提出六周年的推文。
1、注意力机制不是Transformer提出的。
注意力机制是深度学习三巨头之一的Yoshua Bengio于 2014 年提出的。这篇名为 Neural Machine Translation by Jointly Learning to Align and Translate 的论文中首次提出了注意力机制。堪称自然语言处理里程碑级的论文。在那之后许多人都投身于对注意力机制的研究,但直到Transformer论文的出现大家才明白——相对别的因素而言,只有注意力机制本身才是重要的。
2、Transformer和注意力机制最初都只为了解决机器翻译问题。
未来人们回溯 AGI 的起源,说不定要从谷歌翻译开始。尽管注意力机制几乎可以用在深度学习的所有领域,但一开始不管是Yoshua Bengio的论文还是Transformer架构,都单纯是为了提高机器翻译的效果。
3、Transformer一开始并未引人注意,至少对NeurIPS来说如此。
NeurIPS 2017上一共有 600 多篇论文被接受,Transformer 是其中之一,但也仅此而已了。讽刺的是当年NeurIPS上的三篇最佳论文联合起来的引用次数只有五百多次。
4、OpenAI 在Transformer发布的第二天就 all in 。
虽然很多人一开始并没有意识到Transformer的威力,但这其中显然不包括 OpenAI。他们在Transformer 甫一发布就迅速意识到了这意味着什么,并迅速决定完全投入其中。
实际上,GPT 中的 T 正是Transformer。
5、Transformer几乎立刻取代了 LSTM 的地位。
在Transformer提出之前,自然语言处理使用广泛的是名叫长短期记忆网络 LSTM 的序列生成模型,它的一大缺陷是对输入内容的先后顺序敏感,因此无法大规模使用并行网络计算。
然而在Transformer被提出之前,许多人都认为 LSTM 将在很长一段时间内容主导NLP的发展。

🌊出海活动推荐
印尼,一个人口近3亿的多岛国家,正迅速崛起为全球新消费市场的热门目的地。品玩Global邀请您参与将于6月20日举办的“出海印尼,新消费快速破局之道”目的地出海活动,一同探索印尼独特的文化魅力和多元的商业生态!
*点击下图二维码,即可报名!



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界ICLR 2023 | DIFFormer: 扩散过程启发的Transformer《向着温暖的阳光》&《终于等到你》RWKV:在Transformer时代重振RNN云原生 AI 工程化实践:FasterTransformer 加速 LLM 推理在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数Transformer发表六周年!8位作者已创办数家AI独角兽!星标破10万!Auto-GPT之后,Transformer越新里程碑RWKV项目原作解读:在Transformer时代重塑RNN巴黎市长将重修Châtelet 广场以方便行人想明白,看通透,才有好日子过铁链女的真相transformer的细节到底是怎么样的?Transformer 连环18问!ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架图与代码不一致,Transformer论文被发现错误,网友:早该被指出1000次Transformer诞生6年:彻底改变AI界,8位作者已创办数家AI独角兽后GPT书:从GPT-3开始,续写Transformer庞大家族系谱无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章【城事】巴黎市长将重修Châtelet 广场以方便行人大模型的好伙伴,浅析推理加速引擎FasterTransformer比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤Transformer作者创立,Hinton、李飞飞青睐,明星创企Cohere推出打工人专用知识助手炸裂!微软新作LongNet:将Transformer扩展到10亿个Tokens12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统彻底解决ChatGPT健忘症!突破Transformer输入限制:实测支持200万个有效token《女人花》Transformer八子:新硅谷「叛徒」铸就 AI 世界「至尊魔戒」1942年,汪兆娥投奔汪精卫的照片,满脸得意PackedBert:如何用打包的方式加速Transformer的自然语言处理任务Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽ChatGPT危了!注意力机制的神秘bug曝光!Transformer模型恐大受冲击...ChatGPT危了!「注意力公式」8年神秘bug首曝光,Transformer模型恐大受冲击基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘科学匠人 | 胡瀚:成功用Swin Transformer连接CV和NLP主流架构的“破壁人”20+篇里程碑式论文,带你从「Transformer的前世」速通到ChatGPT
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。