2023年 AI 十大展望:GPT-4 领衔大模型变革,谷歌拉响警报,训练数据告急
以下文章来源于OneFlow ,作者Rob Toews
岁末年初之际,科技圈的年度盘点不胜枚举,相关技术预测倒是不多。本文作者 Rob Toews 发布了2023年 AI 发展的十大预测,整体来看,大部分预测都离不开“大模型”这个关键词,具体分析也有其道理。当然,其中的文生图、人形机器人等领域的发展也举足轻重。2023,让我们拭目以待。
作者|Rob Toews
翻译|杨婷、徐佳渝
1 重磅事件:
GPT-4将在年初发布
重磅事件:
GPT-4是OpenAI的新一代生成语言模型,它有着强大的功能,最近到处流传着它的消息。
GPT-4预计将在2023年年初发布,相较于GPT-3和3.5,GPT-4的性能有着跳跃式的提升。尽管最近有关ChatGPT的讨论正在火热朝天地进行,但相比GPT-4,这只是前奏而已,让我们拭目以待!
GPT-4 会是什么样子的呢?与人们的直觉不同,我们预测它不会比其前身GPT-3大太多。在今年早些时候发表的一篇有影响力的研究论文(https://arxiv.org/pdf/2203.15556.pdf)中,DeepMind研究人员称现在的大型语言模型实际上比本来应该有的大小还要大。为了能在给定的有限计算预算中获得最佳模型性能,现在的模型应该用更少的参数在更大的数据集上进行训练。也就是说,训练数据比模型大小重要。
当今大多数主要语言模型都是在约3000亿个token的数据语料库上训练的,比如说OpenAI的GPT-3(1750 亿个参数)、AI21 Labs的Jurassic(1780 亿个参数)和微软/英伟达的Megatron-Turing(5700 亿个参数)。
我们预测,GPT-4的数据集要比上面提到的大一个数量级,也就是说它可能在10万亿个token的数据集上进行训练。同时它的参数将比Megatron-Turing的要少。
据说,GPT-4有可能是多模态的,除文本生成之外,它还可以生成图片、视频以及其他数据类型的输入。这意味着GPT-4能够像DALL-E一样根据输入的文本提示词(prompt)生成图像,或者是可以输入视频然后通过文本的形式回答问题。
多模态GPT-4的发布可能是一个重磅消息。但是它更可能和以前的GPT模型一样是纯文本模型,它在语言任务上的表现将重新定义SOTA。具体来说GPT-4会是什么样的呢?那就是它在记忆(保留和参考前期对话信息的能力)和摘要(提取和精简大规模文本的能力)这两个语言领域的性能会有跨越式提升。
2 训练大型语言模型将
逐渐开始耗尽数据
训练大型语言模型将
逐渐开始耗尽数据
数据是新时代的石油这种说法早就已经是陈词滥调了,但这样说还不足以表明数据的重要性:因为石油和数据都是有限的,都有消耗殆尽的一天,在AI领域,语言模型对数据的需求量最大,数据耗尽的压力也更大。
正如前面提到的,DeepMind的Chinchilla work等研究已经表明,构建大型语言模型(LLM)最有效的方式不是把它们做得更大,而是在更多的数据上对其进行训练。
但是世界上有多少语言数据呢?更准确地说有多少语言数据达到了可以用来训练语言模型的要求呢?实际上,现在网络上大多数的文本数据并没有达到要求,不能用来训练大型语言模型。
对于这个问题,我们很难给出确切的答案,但是根据一个研究小组(https://arxiv.org/pdf/2211.04325.pdf)给出的数据,全球高质量文本数据的总存量在4.6万亿到17.2万亿个token之间。这包括了世界上所有的书籍、科学论文、新闻文章、维基百科、公开代码以及网络上经过筛选的达标数据,例如网页、博客和社交媒体。最近的另一项研究数据(https://www.lesswrong.com/posts/6Fpvch8RR29qLEWNH/chinchilla-s-wild-implications)显示,数据总数大约为3.2万亿个token。
DeepMind的Chinchilla模型是在1.4万亿个token上训练的。也就是说,在这个数量级内,我们很有可能耗尽世界上所有有用的语言训练数据。这可能成为人工智能语言模型领域持续进步的一大障碍。许多前沿AI研究人员和企业家私下里都对此忧心忡忡。
随着研究人员开始寻求解决数据短缺这一迫在眉睫的问题,预计2023年对这方面的关注度会增加。针对这一问题,合成数据是一种可能的解决方案,尽管该如何操作这一方法还未可知。还有另一种可能的方法,那就是系统性地转录会议上的讲话,毕竟口头交流代表着还有大量未捕获的文本数据。
作为世界领先的LLM研究机构,人们十分好奇OpenAI在其即将发布的GPT-4研究中会如何应对这一挑战,同时,大家也期待着可以获得一些启发。
3 一些消费者开始将完全自动驾驶
作为日常出行模式
一些消费者开始将完全自动驾驶
4 AI绘画工具Midjourney
将筹集风险投资资金
AI绘画工具Midjourney
OpenAI的DALL-E,Stability AI(和其他贡献者)的Stable Diffusion和Midjourney是目前最著名、最有影响力的三个文生图的AI平台。
2019年,OpenAI从微软处获得了10亿美元的投资,并且目前正在商讨筹集更多资金。几个月前,Stability AI获得了1亿美元的投资,而且已经开始寻求更多投资。
相比之下,Midjourney没有任何外部投资。不过,Midjourney的用户和发展速度增长极快,目前为止,它拥有近600万用户和相当可观的收入。但是其网站显示Midjourney仍然是一个“小型自筹资金”组织,只有11名全职团队成员。
大卫·霍尔茨(David Holz)是Midjourney的创始人兼首席执行官,他曾是Leap Motion的联合创始人兼首席技术官,Leap Motion曾是一家飞速发展的虚拟现实创业公司,这家公司在2010年代筹集了近1亿美元的风险投资,之后公司发展状况迅速恶化,最终被收购。据称这段失败的经历让霍尔茨拒绝接受外部资金。到目前为止,Midjourney已经拒绝了很多投资者。
然而,面对公司的迅猛发展、激烈的竞争以及大量的市场机会,我们推测霍尔茨将在2023年开始为Midjourney筹集投资。否则,Midjourney将快速在这场由其引发的生成式人工智能淘金热中落伍。
5 谷歌作为主流搜索引擎
的地位将面临挑战
谷歌作为主流搜索引擎
搜索引擎是现代互联网体验的核心,是我们浏览和访问数字信息的主要方式。现在的大型语言模型可以进行复杂级别的读和写,这在几年前几乎是不可思议的,这会对我们的搜索方式产生深远影响。
在ChatGPT出现之后,重新定义搜索的对话式搜索(conversational search)引起了人们的广泛注意。对话式搜索让我们可以与AI智能体进行动态对话以找到要查找的内容,不用再像传统的搜索引擎一样先输入要查询的内容,然后返回一长串链接,比如现在谷歌搜索的做法。
对话式搜索具有广阔的发展前景,但是它还有一个亟待解决的大问题,那就是搜索结果不够准确,只有解决了这个问题,对话搜索才能发展起来。目前对话式LLM的准确性还不够,因为它们有时会给出与事实不符的信息。
最近OpenAI首席执行官Sam Altman称,“现在在重要的事情上,我们还不能依赖ChatGPT”。大多数用户也不会接受不能百分百保证结果准确的搜索引擎,即使它的准确率可以达到95%甚至99%。2023年,研究人员面临的主要挑战之一就是,以一种可扩展且稳健的方式来解决这个问题。
一批发展势头良好的初创公司正在对谷歌的搜索引擎发起挑战,它们希望通过LLM和对话界面重塑消费者的搜索方式,比如You.com,Character.AI,Metaphor 和Perfucity等公司。
但是,LLM不仅仅只是会改变消费者的互联网搜索方式,它还会改变其他搜索类型。
比如企业搜索(组织搜索和检索私有数据的方式)同样也处于新黄金时代的风口浪尖。由于大规模矢量化的出现,LLM首次实现了真正的语义搜索:它能够根据基本概念和上下文而不是简单的关键字来索引和访问信息。这将使企业搜索更加强大和高效。像Hebbia和Glean这样的初创公司正在使用大型语言模型引领改变企业搜索的潮流。
下一代搜索引擎将不仅限于文本。人工智能的最新进展为多模态搜索提供了新的可能性:即跨数据模式查询和检索信息的能力。
因为视频占据了互联网数据总量的80%左右,所以视频搜索代表了最大的发展机会。想象一下,如果我们可以轻松且准确地搜索视频中的某个片段、某个人、某个概念或者某个动作,这将是什么样的局面?Twelve Labs是一家初创公司,它构建了一个多模态AI平台,以实现精细化的视频搜索和理解。
自谷歌在互联网时代崛起以来,搜索领域就几乎没怎么发生过变化。2023年,有了大语言模型,该领域将发生巨变。
6 开发人形机器人将吸引
大量注意力、人才以及资金 2023年将有几个新的 人形机器人项目启动
开发人形机器人将吸引
人形机器人项目启动
人形机器人可能是好莱坞电影对AI进行夸张化的极端代表,比如说电影 《机械姬》和《我,机器人》。人形机器人发展迅速,并逐渐成为现实。
为什么要打造人形机器人呢?原因很简单,因为我们现实世界的大部分架构都是为了人类而打造,如果我们想利用机器人在工厂、购物中心、办公室和学校这样的场所自动完成复杂活动,最有效的方法就是让机器人拥有和人类一样的外形。这样,机器人就可以应用到多种场景中,且无需适应周围环境。
今年9月,特斯拉在人工智能日推出了擎天柱(Optimus)机器人,这大大推动了人形机器人领域的发展。埃隆·马斯克表示,擎天柱最终会比汽车业务更有价值。然而,擎天柱机器人要想完全成熟,还任重而道远 。但是,当特斯拉将所有资源都投入到优化擎天柱这项任务时,能够取得的进展是无法估量的。
同样地,许多具有发展前景的初创公司也推动着人形机器人领域的发展,包括Agility robotics、Halodi robotics、Sanctuary AI以及Collaborative robotics。
随着人形机器人产业竞争愈演愈烈,预计2023年会有更多的公司加入到这场角逐中,包括初创企业和一些知名公司(如丰田、三星、通用汽车、松下)。这类似于2016年的自动驾驶汽车,当越来越多的人开始意识到汽车行业拥有巨大的市场机会时,次年将会有大量人才和资本涌入该领域。
7 MLOps的新版本
LLMOps将登台亮相
MLOps的新版本
当某种新的技术平台出现时,相应的需求和机会也会随之出现,比如说用以支持新平台的工具和基础设施。风险投资家们通常把这些辅助工具视为“镐头和铲子”(以迎接即将到来的淘金热)。
近年来,初创企业界最热门的当属广为人知的MLOps机器学习工具。初创公司开始一蜂窝地研究MLOps,并以令人咋舌的估值筹集到大量资金:Weights & Biases(获得2亿美元融资,平台估值达10亿美元)、Tecton(获得1.6亿美元融资)、Snorkel(获得1.38亿美元融资,平台估值达10亿美元)、OctoML(获得1.33亿美元融资,平台估值达8.5亿美元)等等。
如今,我们目睹了新一代人工智能技术平台——大型语言模型(LLMs)的问世。与预训练语言学习模型(pre-LLM)相比,大型语言模型具有独特的工作流程、技能组件和发展潜能,代表了人工智能的新范式。通过API或者开源,人们可以很容易获得大量预训练模型,这完全改变了人工智能产品。因此,注定会出现一套新的工具和基础设施。
我们预测LLMOps将成为新的流行趋势,它代表着新一代人工智能的镐头和铲子。以新一代LLMOps产品为例,包括基础模型微调工具、无代码LLM部署、GPU访问与优化、提示词实验、提示词链以及数据合成与数据增强。
基于或引用AlphaFold的
2020年底,DeepMind公司首次推出了AlphaFold平台,破解了生命的一大谜团:即蛋白质的折叠问题。AlphaFold能够仅从蛋白质的一维氨基酸序中准确地预测出蛋白质的三维形态。这是一个里程碑式的成就,解决了困扰研究人员几十年的问题(AlphaFold代表了人工智能历史上最重要的成就)。
因为蛋白质是地球上所有生物进行重要活动的内在基础,对蛋白质的结构和功能了解得越透彻,就越能为生物学和人类健康提供新的可能。不论是从开发救生疗法(life-saving therapeutics),到改善农业,还是从对抗疾病到研究生命起源,蛋白质存在于生活中的方方面面。
DeepMind于2021年7月开源了AIphaFold,并推出了一个数据库,它包含350,000种三维蛋白质结构(作为参考,在推出AlphaFold之前,人类已知的蛋白质结构大约有180,000种)。此外,几个月前,DeepMind公布了另一个包含2亿种蛋白质结构的数据库——这几乎覆盖了所有科学上已知的蛋白质。
DeepMind最新版本发布短短几个月后,就有来自190多个国家的50多万名研究人员使用AlphaFold平台,用它查看了200万种不同的蛋白质结构。但这仅仅只是开始。AlphaFold的巨大突破所带来的影响需要好几年才能逐渐展现出全貌。
到2023年,预计基于AlphaFold的研究数量将会激增。研究人员将利用这一庞大的新型基础生物学知识宝库,将其应用于新型疫苗、新型塑料研发等多个跨学科领域,进而改变世界。
DeepMind、Google Brain和OpenAI
去年,斯坦福大学的一个研究团队提出了“基础模型”(foundation model)一词,它是指基于大量数据训练的大规模人工智能模型。该模型的构建并不是为了执行特定任务,而是为了能有效执行各种不同活动的任务。
基础模型一直是人工智能最新发展的关键驱动力。如今,基础模型非常强大。但无论是GPT-3这样的文本生成模型,还是Stable Diffusion这样的文本转图像模型,又或是Adept这样的计算机操作(computer actions)模型,均只能运用于数字领域。
AI系统在真实世界的应用随处可见,例如自动驾驶汽车、仓库机器人、无人机、人形机器人等等,但到目前为止,它们大多还未受到基础模型新范式的影响。
这种情况将在2023年发生变化。预计用于机器人的基础模型这一早期开创性工作,将由世界领先的人工智能研究机构DeepMind、Google Brain和OpenAI完成(尽管OpenAI去年退出了机器人研究)。
构建用于机器人的基础模型意味着什么?换句话说,构建物理世界的基础模型意味着什么呢?从高层次来看,这样的模型可以用不同传感器模式(如相机、雷达、激光雷达)的大量数据进行训练,以产生对物理和现实世界物体的普遍理解能力:比如这些不同的物体是如何移动的、它们之间如何相互作用、它们有多重、多脆弱、多柔软、多灵活以及当你触碰、投掷或者扔它们的时候会发生什么。这种“真实世界的基础模型”可以针对特定的硬件平台和特定的下游任务进行微调。
10 美国将投资数十亿美元
建设本国芯片制造设施
美国将投资数十亿美元
更多内容,点击下方关注:
微信扫码关注该文公众号作者