GPT-4发布,能击败90%的人类
编辑| Tian
出品 | 青投创新
今天(3月15日)凌晨,OpenAI宣布推出GPT-4,这是其AI语言模型系列中最新的一款,为ChatGPT和新Bing等应用提供支持。
在OpenAI的介绍里,对GPT-4的描述是:这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型,将接受图像和文本输入,提供文本输出,虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。
在Live Demo中,OpenAI的总裁和联合创始人Greg Brockman展示了GPT-4的能力:总结文章、写代码、报税、写诗等等,过去GPT-3.5做不到的, GPT-4都可以完成。
结论就是,GPT-4是一个比ChatGPT更加强大的模型!
强大在哪里?
“GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。”
OpenAI首席执行官Sam Altman在推特上表示,过去的两年里,团队重建了整个深度学习堆栈,并与微软Azure一起,为GPT工作负载从头开始共同设计了一台超级计算机。经过训练和修复更新之后,GPT-4前所未有的稳定,成为OpenAI能够提前准确预测其训练性能的第一个大型模型。
GPT-4的改进明显体现在系统进行多项测试和基准测试中的表现,包括统一律师考试、LSAT、SAT数学和SAT基于证据的阅读和写作考试。
在美国律师执照统考模拟中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%;生物奥林匹克竞赛,GPT-3.5能达到后31%水平分位,GPT-4可达到前1%水平分位;GRE、SAT考试成绩中,也有大幅提升,击败了80%以上的人类答题水平,而医学知识自测考试准确率达75%。
尽管在GPT-4的介绍中,OpenAI没有像往常一样透露训练参数数据,只用了“更大的模型”来表述,但从GPT-4能完成的任务和表现来看,无疑是要比上一代GPT-3的1750亿个参数多很多倍。
并且GPT-4 由深度学习技术开发而来,是在公开可用和已被许可数据上进行的训练,并使用强化学习和人工反馈进行微调,这使得GPT-4相比上一代还接受了更多的训练,大幅提高数据与计算方面的能力。
GPT-4是多模态的,即不仅能接受图片、视频、音频的输入,还能同样输出图片、视频和音频。
许多人工智能研究人员认为,整合文本、音频和视频的多模态系统为构建更强大的人工智能系统提供了最佳途径。
OpenAI在发布GPT-4时强调,该系统已经进行了六个月的安全培训,并且在内部测试中,与GPT-3.5相比,GPT-4对禁止或不恰当内容做出响应的可能性降低了82%,做出实际响应的可能性提高了40%,这是对早期GPT模型皆会出现问题的一种修正:随意编造事实或触发敏感内容。
然而,这并不意味着系统不会出错或输出不恰当的内容。例如,微软透露其Bing搜索引擎一直由GPT-4驱动,许多用户能够以各种方式破解Bing的防护,让AI提供危险的建议,威胁用户,并编造信息。
而且GPT-4仍然是基于2021年9月之前的数据训练的,因此GPT-4还缺乏对2021年 9月之后数据的有效理解。
“GPT-4 仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”OpenAI表示。
OpenAI已经与多家公司合作,要将GPT-4结合到他们的产品中,包括Duolingo、Stripe和Khan Academy。
GPT-4模型也将以API的形式,提供给付费版ChatGPT Plus(OpenAI每月20美元的ChatGPT订阅)的订阅用户,开发者可以注册,用它打造应用。
微软此后表示,新Bing搜索引擎将运行于GPT-4系统之上。
OpenAI进一步强调,GPT-4“比以往任何时候都更具创造力和协作性,可以更准确地解决难题”。
与此同时,谷歌方面为了迎战微软,宣布将一系列即将推出的AIGC功能,应用到自家产品中,包括谷歌Docs、Gmail、Sheets和 Slides。
但不同于微软和OpenAI的“发布即可用”,谷歌只会先将Docs和Gmail中的AI工具,在月底提供给一些“值得信赖的开发人员”,而其它功能则将是在今年晚些时候向公众开放。
至于具体时间,谷歌方面并没有具体说明,外界对此评价是谷歌希望抢先微软原定于本周四的发布,但依旧让微软抢先了,所以将暂缓对公众对开放。
而国内的百度早先也宣布将在3月16日正式发布文心一言,但与谷歌面临的窘境一致,在OpenAI推出更加强大的GPT-4后,是否会对文心一言的发布有影响,还需明日揭晓。
美国伊利诺伊大学香槟分校计算机系教授李博表示,短期来看ChatGPT作为文章写作、代码生成的辅助查错工具还不错,但是还不能完全依赖ChatGPT来做回答和搜索,因为它的回答不能保证正确性。
长期来看,她认为ChatGPT可以和不同的AI模型工具结合,做更友好的自动问答系统、学习工具等辅助性工具。此外李博认为,如果要长久发展并用于重要领域中,ChatGPT的可信赖性保证、纠错能力等非常重要。
「往期推荐」
微信扫码关注该文公众号作者