全网沸腾!GPT-4震撼空降,看图玩梗参加高考、10秒生成网站,太太太强了!
ChatGPT热度还未散去,今天凌晨,ChatGPT开发商OpenAI发布了更强大的GPT-4,堪称“王炸”产品,一石激起了千层浪。
比起此前上亿人争相试用的ChatGPT(依靠GPT-3.5模型),GPT-4 这次直接带来了飞跃式提升,不仅文字输入限制提升至 2.5 万字,而且还拥有强大的识图能力,回答准确性也显著提高。
不仅如此,根据OpenAI的说法,GPT-4是其 “迄今为止最先进的系统”,在一些学术和专业基准上具备 “人类水平的表现”,远超其前任ChatGPT。
咱们也不整虚的,看看实测就知道了,对着GPT-4输入一张手绘草图,它能直接生成最终设计的网页代码。
甚至GPT-4在许多专业测试中表现出超过绝大多数人类的水平。
包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分高于88%的应试者,相比之下,GPT-3.5的得分只能排在倒数10%左右。
还有曾是Uber、Facebook 的产品设计师,尝试用 GPT-4 来开发游戏,表示:“GPT-4 是一项令人难以置信的变革性技术。我花了不到 60 秒的时间,重新创建了乒乓球游戏。这还仅仅是我的第一次尝试。这个世界开始变得不一样了。”
这效果给当下不少开发者带来的压力和危机感可不小,有网友当即表示“睡不着了”:“辗转反侧了一个晚上,思考未来 5-10 年我们到底会在哪里。”
GPT-4的能力如此恐怖如斯,难道人类真的要因为AI开始失业了?
据OpenAI介绍,在某些情况下,GPT-4比之前的GPT-3.5版本有了巨大改进,咱们分别来看看。
首先,GPT-3.5的记忆长度大约是8000个单词,折合四到五页书。然而GPT-4的最大记忆约6.4万个单词,折合近50页文字,因此对话具有更强的准确度和上下连贯性。
与GPT-3.5相比,GPT-4在文本对话中最大的进步在于具备了一定的文学创作能力,能根据要求创造出不同文风的歌词、诗篇甚至短句。
更夸张的是,它甚至能押上韵脚。根据指令,GPT-4用26个单词写成一句话概括“灰姑娘”的童话故事。令人震撼的是,这26个单词的首字母恰好是从A到Z的排序。
还有一位AI研究员分别询问GPT-3.5和GPT-4“艾伦人工智能研究所前CEO Oren Etzioni以及企业家Eli Etzioni是什么关系”,GPT-4准确回答出他们是父子关系,而GPT-3.5错误地将他们说成兄弟。
而且GPT-4的幽默感也有所提高。当被要求提供“关于歌手麦当娜的新鲜笑话”时,GPT-4回答“麦当娜为什么要学习几何?因为她想学会如何摆出各个角度的姿势!”在回答的最后,它还“俏皮”地附上了三角尺、跳舞和麦克风的表情符号。
相比而言,GPT3.5的回答就显得平平无奇,并不那么好笑了。
官方还表示,GPT-4将产生更少的错误答案,更少地偏离谈话轨道,更少地谈论禁忌话题,甚至在许多标准化测试中比人类表现得更好。
例如,GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右,在SAT阅读考试中排名前7%左右,在SAT数学考试中排名前11%左右。
对此,英伟达AI科学家Jim Fan点评道:“GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分,几乎和人类考生没有区别。也就是说,GPT-4可以全靠自己考进斯坦福了”…
在测试的26种语言中的24种中,GPT-4优于GPT-3.5和其他大型语言模型(Chinchilla,PaLM)的英语表现,包括拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言。
在情商方面,GPT-4比起GPT-3.5也提高很多。根据OpenAI的描述,用户能够将ChatGPT原本固定冗长的语气和风格,改为更适合他们需要的个性化风格。
具体来说,用户可以要求模型假扮各种角色,比如电视台进行采访的主持人、面对老年用户的基金经理等。根据案例展示,GPT-4还可以熟练切换语言风格适应自己的角色定位。比如在和老年人对话时,使用平和缓慢的语气,而在担任经理下达命令时又采取果断坚决的态度,“赛博”角色扮演可算是玩明白了。
与此前的GPT系列模型相比,GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示,用户同时输入文本和图像的情况下,它能够生成自然语言和代码等文本。
目前图像处理功能还未公开,不过该公司在官网上展示了一系列案例。例如,输入如下图片并询问“这张图片有什么不寻常之处”。
GPT-4能顺利作出回答“这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上,使用熨衣板熨烫衣服。”
OpenAI提供了一个经典示例,输入一张超大的图片,GPT-4还能解读出这张图片搞笑的点在哪里:
OpenAI用下面这张图片演示了GPT-4的推理和识图能力。当发出这张在厨房里拍的照片后,它不仅能辨认出面粉、鸡蛋等元素,还可以迅速给出食谱建议。
询问GPT-4这张图上能做几顿饭,它的回答也非常符合实际。
一夜之间,全球所有验证码都失效了,因为AI已经能读懂图片了。
除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等,例如根据专业论文直接给出论文摘要和要点。
用户也可以直接给一张考试题的照片,让GPT-4一步步思考作答。
还有一个示例是让GPT-4解释这张漫画,GPT-4认为它讽刺了统计学习和神经网络在提高模型性能方面的差异。
不过话说来了, 与早期的GPT模型一样,GPT-4还是存在一定的局限性。
OpenAI称,它并不完全可靠,可能会出现推理错误 ,“GPT-4缺乏对绝大多数数据切断后(2021年9月)发生的事件的了解,并且无法从中吸取经验教训……它有时会出现简单的推理错误,它会轻信用户明显的虚假陈述,有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。”
基于此,OpenAI提醒,用户在使用语言模型时应格外小心,最好辅助以人工审查、附加上下文、或完全避免在高风险情况下使用它。
值得注意的是,GPT-4虽然于凌晨才正式公开,但早在一个月前,微软的新版搜索引擎必应(bing)就已经在GPT-4上运行。微软表示,“如果您在过去五周内的任何时间使用过新版必应,那么您已经体验过GPT-4的早期版本。
目前GPT-4没有免费版本,仅向chatgpt plus的付费订阅用户及企业和开发者开放。由于仅限于Plus订阅用户使用,当晚,大批新订用户涌入,以至于OpenAI的付款系统被挤爆了。
至于价格方面其为 22 美元一个月(20+2刀手续费),并且限制每 4 个小时只能发 100 条消息。
不管怎么说,也许在并不遥远的未来,一个考试中完全碾压人类“做题家”、模仿“霸道总裁”口吻和员工对话,并能精准解读表情包背后小情绪的强大AI即将诞生。至于这对人类来讲是福是祸,就是个见仁见智的问题了。
微信扫码关注该文公众号作者