2014年,Yoshua Bengio和他在蒙特利尔大学的同事们正在研究如何把编码器-解码器用在机器翻译领域。这篇即将成为机器学习研究里程碑之一的论文,在当时有些卡壳。论文的一作,Yoshua Bengio的博士后KyungHyun Cho发现,他的模型在长句翻译上依然有很多问题。这些问题不解决,模型总显得不够强大。当时的蒙特利尔大学正在和IBM公司谈合作,后者负责对接的科学家从纽约来到蒙特利尔时,Yoshua和KyungHyun向他展示了这个进展中的研究,而后者很快指出了这个模型的一个缺失:它缺少一个对齐(alignment)的机制,也就是判断目标输出语言里的哪些词与输入语言是对齐的。在后来发表的论文中,这种对齐的思想加入了进去,长句翻译的效果得到提升,而这篇论文以及由后来联合创办OpenAI的Ilya Sutskever发表的另一篇论文一起奠定了Seq2Seq模型的基本思想,其中使用的对齐思路里,也出现了后来影响人工智能走向的注意力机制的影子,它们被认为是后来各类模型走向底层统一的源头之一。这名给Bengio提出建议的科学家是周伯文。当时周伯文已经在IBM工作10多年,在IBM著名的T. J. Watson研究中心领导自然语言理解与语音翻译团队。在2012年Geoffrey Hinton证明了神经网络的可行性后,周伯文带领他的团队成为最早一批扑到神经网络与自然语言表征相关研究的科学家。Yoshua Bengio在蒙特利尔忙着写论文的同时,周伯文在纽约也开始了基于seq2seq加上注意力机制架构做的研究,而与大多数研究方向不同,他选择了生成式写作的领域。看一看他过往的研究主题,会发现里面有一条长长的线,终端指向通用人工智能。他相信通用人工智能会实现,而且必经之路就是生成式人工智能。“凡是我不能创造的,我都没有真正理解”。周伯文在当年的一场学术会议上引用了著名科学家费曼的话,他认为,人工智能也必须会创造。很快,周伯文团队发表的生成式摘要论文引起了不少注意,但他依然觉得它和人类的行为特别是泛化方面还是差了一些。他认为当时的注意力机制存在缺陷——它们都是根据输出来判断输入中需要更加注意(pay more attention)的地方。周伯文给团队做了个比喻,就好像大学里的期末考试,如果学生通过老师在考前画重点来针对性准备复习,考试的效果当然会好,但学生通常考完就忘了。他认为,如果要做通用人工智能,要考虑的就应该是长期效果和对AI模型更充分的训练,所以不应该看输出,而只能看输入,就像人不能用未来的信息决定现在的判断。这就要设计一个更好的编码器,和更好的自然语言表征机制。最终他和团队提出了多跳自注意力(multi-hop self-attention)机制来改善编码器——若继续拿考试做比喻,就是完全不考虑会考什么,只看书,来理解哪里需要更多地赋予注意力,也就是学习自注意力,并且不能限制在单独某一科目或任务的学习上,所以要反复的看,通过多跳来理解内在的依赖关系。2016年底这篇论文完成,2017年初发表,成为第一个完全不考虑下游任务的自然语言表征模式。在那两年,有关神经网络的一切都在蓬勃的发展着。同年年底,后来被称为一切繁荣的开端的那篇论文出现了,来自谷歌的几个研究员写下《Attention is All you need》的题目,给世界带来了Transformer模型。在这篇论文中,周伯文的论文被引用,在引用角标对应的地方,多跳自注意力的名字演变成了“多头自注意力”。“这是一个很好的研究,他们在多头自注意力基础上拓展了两件事。第一就是利用强大的算力,对注意力机制叠了很多层。第二很聪明也很简单,就是把RNN抛弃了,只用位置编码,轻装上阵因此可以用更多的数据。最终证明效果很好。”周伯文对我回忆道。RNN/LSTM之前一直和Seq2Seq模型一起出现,它可以捕捉上下文的关系,但因为需要基于序列顺序来做,所以计算资源消耗巨大。尤其会出现梯度爆炸的问题。Attention is all you need,这个后来很大程度改变了学术论文起标题风格的短句,今天的关注点都在“Attention”上,但在当时的研究背景里,它更像是在有针对性的喊话:多头重要,自注意力重要,但RNN不再重要,这打破了当时所有人搭建模型时的惯例,也是和周伯文等之前研究者的论文最大的区别。这篇论文和Transformer架构彻底改变了一切,它解决了模型长距离记忆的问题。Ilya Sutskever在近期一次采访中回忆,OpenAI在论文出现第二天就立刻彻底转向了Transformer架构。而后,2020年5月OpenAI基于Transformer架构的GPT-3论文发表,2年后ChatGPT出现。之后的一切都是历史。“从注意力到自注意力,从BERT到GPT-3,核心的思想都是当不再依赖输出或待预测词的下文等未来的信息时、当可以用更多的数据来更充分训练AI模型时,我们看到了AGI的影子“。弄潮的人会更早意识到新浪潮到来,在看到GPT3后,当时已经在京东担任高级副总裁的周伯文给自己的职业生涯做了一个重要的决定:创业。2021年下半年,他向工作了4年的京东提出离职。他曾在这里一手搭建起京东的整个AI团队,领导了云与AI的整合和战略刷新,把生成式人工智能用到千人千面的个性化商品营销和爆款产品创新中,并收获了亮眼的提升数据。2020-2021年生成式人工智能还是早期探索,很少有人愿意为此而重新出发,但他看到的未来让他无法等待。人生就是“connect the dots”。周伯文喜欢乔布斯这个提法,而对他来说,把这些点连接起来的一刻到了。