Redian新闻
>
GPT-4重磅发布,吊打ChatGPT!性能炸天:10秒做出一个网站,在考试中击败90% 人类

GPT-4重磅发布,吊打ChatGPT!性能炸天:10秒做出一个网站,在考试中击败90% 人类

公众号新闻



编译 | 刘燕,核子可乐

   GPT-4 在考试中击败了 90% 的人类。
GPT-4 来了

OpenAI 的新“核弹”来了。

3 月 14 日晚间,OpenAI 宣布发布 GPT-4。

“我们创建了 GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平”,OpenAI 表示。

OpenAI 联合创始人 Sam Altman 表示,它是“迄今为止功能最强大、最一致的模型”,能够使用图像和文本。

在 YouTube 上的 Live Demo 中,OpenAI 的总裁和联合创始人 Greg Brockman 展示了 GPT-4 拥有的强大技能。GPT-4 可以总结文章、写代码、报税、写诗……更惊人的是,GPT-4 只需 10 秒就可以做出一个网站,程序员可能危险了...

在演示视频中,按如下操作:

1、在草稿本上用纸笔画出一个非常粗糙的草图

2、拍照告诉 GPT:我要做一个网站长这样,给我生成网站代码

3、网站做完,总共历时十秒钟左右

不禁令人感叹,又有多少人要失业了。有网友在社交平台表示,“时刻准备下岗吧”。

GPT-4 的技术论文:https://cdn.openai.com/papers/gpt-4.pdf

GPT-4 系统模型卡介绍:https://cdn.openai.com/papers/gpt-4-system-card.pdf

最近这几个月,ChatGPT 的爆火,让人们惊叹于人工智能强大的聊天能力。GPT4 出来后,可以看到,在聊天之外,人工智能的能力已不断扩展其外延。

ChatGPT用的语言模型是 GPT-3.5。在谈到GPT-4比前一个版本强大在哪里时,OpenAI称,虽然这两个版本在随意的谈话中看起来很相似,但“当任务的复杂性达到足够的阈值时,差异就会出现”,GPT-4更可靠、更有创意,并且能够处理更细微的指令。该公司表示,GPT-4响应禁止内容请求的可能性比其前一个版本低82%。OpenAI表示,在内部评估中,GPT-4产生正确回应的可能性要比GPT-3.5高出40%。 

而且GPT-4是多模态的,同时支持文本和图像输入功能。此外,GPT-4比以前的版本“更大”,这意味着其已经在更多的数据上进行了训练,并且在模型文件中有更多的权重,这也使得它的运行成本更高。

GPT-4 在一系列基准测试中的表现优于 GPT-3.5

OpenAI 称它使用了微软 Azure 来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

据悉,GPT-4 参加了多种基准考试测试,包括美国律师资格考试 Uniform Bar Exam、法学院入学考试 LSAT、“美国高考”SAT 数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分高于 88% 的应试者。

GPT-4 从图像生成食谱

OpenAI 表示,已经与多家公司合作,要将 GPT-4 结合到他们的产品中,包括 Duolingo、Stripe 和 Khan Academy。

GPT-4 模型也将以 API 的形式,提供给付费版 ChatGPT Plus 的订阅用户,允许开发者付费将 AI 集成到他们的应用程序中。

微软表示,新款的必应(Bing)搜索引擎将运行于 GPT-4 系统之上。

在 OpenAI 宣布开发出 GPT-4 后,马斯克在推特上评论了这一消息,表达了他对人工智能对就业市场的潜在影响的担忧。马斯克在他的推文中写道:“我们人类还能做什么?我们最好继续使用 Neuralink!(马斯克旗下脑机接口公司)!”

GPT-4:可生成更安全、
更有用响应的 OpenAI 至高系统

据介绍,凭借更广泛的常识和问题解决能力,GPT-4 能为用户提供更准确的回答。

GPT-4 的创造性和协作能力超越以往各个版本。

它能够生成、编辑并与用户一道完成创意和技术性创作任务,包括谱写歌曲、编写剧本或者学习用户的写作风格。

例如:

输入:

用一句话解释《灰姑娘》的剧情,其中每个单词必须以字母表中从 A 到 Z 的下一个字母开头,不得重复字母。

输出:

A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very wondrously, xenial youth zealously.
GPT-4 的高级推理能力已经超越 ChatGPT

ChatGPT:

输入

Andrew 从上午 11 点到下午 3 点有空,Joanne 中午到下午 2 点有空,之后下午 3:30 到 5 点有空。Hannah 中午有半小时空闲,之后下午 4 点到 6 点有空。如果 Andrew、Hannah 和 Joanne 要开个半小时的会,可以选择哪些时段?

输出

以下是空闲时段列表:-Andrew:上午 11 点至下午 3 点 -Joanne:中午至下午 2 点,以及下午 3:30 至 5 点;-Hannah:中午至 12:30,以及下午 4 点至 6 点。据此计算,三人都空闲的时间窗口只有一个:下午 4 点至 4:30。因此会议可以安排在下午 4 点。

GPT-4:

输入

Andrew 从上午 11 点到下午 3 点有空,Joanne 中午到下午 2 点有空,之后下午 3:30 到 5 点有空。Hannah 中午有半小时空闲,之后下午 4 点到 6 点有空。如果 Andrew、Hannah 和 Joanne 要开个半小时的会,可以选择哪些时段?

输出

Andrew:上午 11 点到下午 3 点;Joanne:中午 12 点至下午 2 点,下午 3:30 至 5 点;Hannah:中午 12 点至 12:30,下午 4 点至 6 点。三人均有空的时段:中午 12 点至 12:30。
GPT-4 在测试中也获得了超过
ChatGPT 的考核成绩(百分比位次)。
统一律师考试

ChatGPT :10%

GPT-4: 90%

生物奥赛题

ChatGPT :31%

GPT-4 (含视觉):99%

比 GPT-3.5 准确性提高 40%

沿着对 GPT、GPT-2 和 GPT-3 的研究路径,OpenAI 的深度学习方法利用更多数据和计算建立起愈发复杂且强大的语言模型。

OpenAI 投入 6 个月时间,让 GPT-4 更安全、也更一致。在 OpenAI 的内部评估中,与 GPT-3.5 相比,GPT-4 响应拒绝内容请求的几率降低了 82%,生成可靠响应的几率提高 40%。

安全与对齐
人工反馈训练

OpenAI 引入了更多人工反馈,包括由 ChatGPT 用户提交的反馈,以改进 GPT-4 的行为。OpenAI 还与 50 多位专家合作,在 AI 安全和保障等领域获得了早期反馈。

人工反馈训练

OpenAI 将以往模型在现实应用中的经验教训,引入了 GPT-4 的安全研究和监控系统当中。与 ChatGPT 一样,随着使用者越来越多,我们也将定期更新并改进 GPT-4。

在实际应用中不断提升

GPT-4 的高级推理和指令遵循能力加快了特准的安全工作。OpenAI 使用 GPT-4 辅助创建用于模型微调的训练数据,并在训练、评估和监控流程中对分类器进行迭代。

仍存在缺陷

 

OpenAI公司CEO Sam Altman 在Twitter上称,GPT-4是其模型“最有能力且最符合”人类价值观和意图的模型,尽管“它仍然存在缺陷”。

“它仍然存在缺陷,仍然有限,但它有明显的改进”,Sam Altman写道,“它比以前的模型更有创意,它的幻觉明显减少,而且它的偏见也更少。”


参考资料:

https://openai.com/product/gpt-4

www.youtube.com/watch?v=outcGtbnMuQ

今日荐文


无需豪掷数亿购买硬件,用笔记本就能运行650亿参数大模型:这位程序员仅用一晚上就做到了

技术专家控诉ChatGPT:到处宣扬我死了,还伪造了一份讣告

奇瑞高管回应周六是工作日;OpenAI CEO谈ChatGPT未来盈利细节;腾讯T13专家黄希彤被裁 | AI一周资讯

集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布


又一AI大神杀入大模型领域!亚马逊首席科学家李沐被曝离职,与导师搭档创业

马斯克开会当场解雇Twitter首席工程师:我有1亿多粉丝,他却说公众对我失去兴趣


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
二年级选课,忽闻一夜 GPT 来,千课 万课 AI 开考试能力超90%的人类!OpenAI重磅发布GPT-4,支持这些功能→月入五千,能不能击败95%的人8点1氪:米哈游新作未上线登顶超百国免费榜;研究显示ChatGPT在会计考试中不如人类;酒店回应五一期间睡大厅沙发99元一晚回国, 十年签证可办了集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布GPT-4来了!10秒钟做出一个网站,考试中击败90%的人类,OpenAI付款系统被挤爆ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!刚刚!国台办重磅发布,金门也有大动作!资本大鳄突然爆雷,ChatGPT黑马被带崩!万亿龙头遭暴击,什么情况?Gpt 4一出,谁与争锋人手一个ChatGPT!微软DeepSpeed Chat震撼发布,一键RLHF训练千亿级大模型震撼!GPT-4来了,支持多模态,全面吊打ChatGPT,完虐标准化考试ChatGPT在律所:聪明人已经在用ChatGPT吊打同事了!量子论对狭义相对论的致命的依赖上头条!全球考试拔尖,大温8岁华裔小学霸击败99%的考生GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福美女主播惊艳转身基金经理,击败97%的日本同行2023 內心成熟的人,看誰都顺眼!击败90%的人类,更聪明更强大的GPT-4来了Hunt Good 周报|注册了 ChatGPT 但不会用,有人专门做了个网站来教你太强了!GPT-4发布,全面吊打ChatGPTChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇最新GPT-4在律考中击败90%人类,它到底强在哪?国内普通人可以在哪个网站使用ChatGPT-4?无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型GPT-4 重磅发布,吊打 ChatGPT!太太太强了!全网沸腾!GPT-4震撼空降,看图玩梗参加高考、10秒生成网站,太太太强了!ChatGPT升级版发布,十秒能做一个网站!学啥专业不容易被AI抢饭碗?0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5一个老海归的“逃出”GPT-4发布,能击败90%的人类韦神出的这道题火了,GPT难诉相思,送谢莉斯老师GPT-4 重磅发布!ChatGPT 炸裂大升级,直接能考上哈佛,抢先体验后我慌了突然出手!意大利封杀ChatGPT!马斯克也下场呼吁限制ChatGPT!AI发展可能超越人类思维?用ChatGPT做PPT,太爽了!(附赠3个网站,1分钟做出绝美PPT!)一战成名!美女主播转行当基金经理,收益率竟击败97%同行...8点1氪:​GPT-4发布,考试中击败90%的人类;腾讯会议再次调整,将取消免费300人不限时会议;海底捞禁止单点清水锅消息属实GPT
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。