Redian新闻
>
ChatGPT升级版!GPT-4 能识图能算税,升级成考霸,华裔AI科学家点评:它可以自己考进斯坦福了

ChatGPT升级版!GPT-4 能识图能算税,升级成考霸,华裔AI科学家点评:它可以自己考进斯坦福了

公众号新闻

北美华人论坛请访问:huaren.us或者点击下方“阅读原文”可下载官网APP


ChatGPT发布仅仅4个月后,OpenAI 正式对外发布了大型多模态模型GPT-4

OpenAI发文称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。

它强大到什么程度呢?

输入一张手绘草图,GPT-4能直接生成最终设计的网页代码。

它以高分通过各种标准化考试:SAT拿下700分,GRE几乎满分,逻辑能力吊打GPT-3.5

GPT-4在各种考试中,有几个测试几乎接近了满分:

· USABO Semifinal 2020(美国生物奥林匹克竞赛)

· GRE Writing

GPT-4在高级推理能力上超越ChatGPT。以美国 BAR律师执照统考为例,GPT3.5可以达到 10%水平,GPT4可以达到90%水平。生物奥林匹克竞赛从GPT3.531%水平,直接飙升到 99%水平。

GPT-4的长度限制提升到32K tokens,即能处理超过25000个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。

外,OpenAI 还在为机器学习模型设计的传统基准上评估了GPT-4。从实验结果来看,GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:

研究团队使用微软Azure Translate,将MMLU 基准——一套涵盖57个主题、14000个多项选择题翻译成多种语言。在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中,有24种语言下,GPT-4优于GPT-3.5 和其他大语言模型(ChinchillaPaLM)的英语语言性能。

GPT-4在不同语种上的能力表现:中文的准确度大概在 80% 左右,已经要优于GPT-3.5的英文表现了。

在“AI编程助手”模式下,还可以让它轻松写代码,生成一个网站,或者更复杂的,写一个基于Discord的机器人,如果出现错误,比如要调用比较新的API而出错,甚至也不需要向它解释,而是把错误代码复制进去,它就会自动纠错,生成新的代码。

或者要它变身成TaxGPT,要它基于税务法则,来计算出一对夫妻要缴纳多少税,而且还要把计算理由一步步写出来,让人们可以检阅。

对于GPT-4展示出的专业能力,OpenAI联合创始人兼总裁格雷格·布洛克曼(Greg Brockman大为赞赏,他表示那段税务文件,他自己读了半个小时也没有搞懂,然而GPT-4却可以很快给出答案。

或许这段不到一个小时的演示,才真正道出了GPT-4的强大之处——它不再仅仅是普通用户的“聊天机器人”,而将成为开发者手中的利器,在文本、编程、税务以及更多可以想见的领域,成为强大工具的开发基石。

OpenAI还贴心地发布了GPT-4开发者视频,手把手教你生成代码、检查错误信息、报税。

格雷格说了句有点扎心的话:“它并不完美,但你也一样。”

OpenAI称:“我们花了6个月的时间使用我们的对抗性测试程序,以及在ChatGPT身上累积的经验教训来迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。”

“我们的 GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为第一个我们能够提前准确预测其训练性能的大型模型。”

目前OpenAI正通过ChatGPTAPI发布GPT-4的文本输入功能,图像输入功能暂未开放。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权,4小时内最多只能发布100条信息。开发者也可以申请GPT-4 API,进入候补名单等待通过。

对此,李飞飞高徒、英伟达AI科学家吉姆·范(Jim Fan点评道:‘GPT-4最强的其实就是推理能力。它在GRESAT、法学院考试上的得分,几乎和人类考生没有区别。也就是说,GPT-4可以全靠自己考进斯坦福了。’(吉姆自己就是斯坦福毕业的!)

GPT-4已经开始具备一点点的幽默感。它已经可以讲出一些模式化的、质量不咋样的冷笑话——但是,至少它已经开始理解“幽默”这一人类特质。

比如《纽约时报》提供的案例:

在《纽约时报》提供的案例中,同样可以看出GPT-4可以同时解析文本和图像,这也使它能够解释更复杂的信息。不过,目前图像输入的权限尚未公开,所以目前还没看到更多例子来证明GPT-4在图像方面的处理能力。

在随后举行的Live Demo中,OpenAI也表示,还没有公开提供这部分技术,但已经在和一家名为Be My Eyes的公司进行合作,对方会使用GPT-4来构建服务。

不过,GPT-4仍存在改进空间。虽然GPT-4这波能力大升级,但之前ChatGPT会出现幻觉、胡说八道的毛病还是没能完全改掉。

用户体验反馈


GPT-4 刚发布,就有小伙伴迫不及待的体验的一把。

Twitter 用户@skirano GPT-4 实现了在不到一分钟的时间里,完整编写出一部乒乓游戏Pong

@victalk_eth分享了自己的使用体验:

计算机和设计双学位毕业的王禹效在重度使用GPT-4 后,通过《少数派》分享了自己的感受。

在他看来,第四代模型 GPT-4重点强化了创作能力,如作曲,写小说等;增加了对于长文本的处理能力。最重要的,还是多了一种新的交互方式,就是对于图片的理解。也就是多模模型( Large Multimodal Model)。

在之前 ChatGPT 的使用中,因为没法插入图片,所以有些需要表述的内容,需要靠文字描述给它。现在不需要了,直接一丢就行,让它自己理解去。GPT-4 除本身带了对于图片 OCR 外,还有对位置和细节的理解能力,比如下图中 GPT-4 的回复,是对于一张截图的描述。

从目前体验来看,GPT-4 的答复效果和 ChatGPT-3.5 Turbo 相比稍微提升,对于语义逻辑性的把握比老版本显著较好。但有个很大的问题,就是新模型的答复非常慢。他个人猜测有两个可能:

1. GPT-4 类似于 1750 亿参数的 GPT-3,目前是个未经充分优化的版本,而不是百亿参数级别的 ChatGPT 3.5 Turbo。这个模型从 OpenAI 限制访问次数也可以看出,实际上做答复也非常消耗 OpenAI 那边跑模型的算力。

2. GPT-4 因为是个多模模型,所以流程要比纯文本的 ChatGPT-3.5 Turbo 显著复杂。大概率包含了图片向量理解的类似 CLIP 文本和图片向量对齐的中间模型等操作,整体运作也更为复杂。

他也提出了自己的建议:“如果你的工作中:ChatGPT-3.5 Turbo 能满足你,用那个就行,完全够用。免费版本的 ChatGPT 3.5 英文版本没问题,中文使用不建议,它的中文的语料库和 ChatGPT-3.5 Turbo 相比差距比较大。”


应用面向开发者,越来越贵


当然,除了表现方面,还有一个明显的不同是,GPT-4比以前的版本“更大”,这意味着它已经接受了更多数据的训练,因此运行起来也更加昂贵。OpenAI 只表示它使用了微软Azure来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

这也意味使用它的成本越来越高。与ChatGPT不同的是,这个新模型目前还不能免费公开测试,虽然它鼓励开发者申请试用,但是将需要上等待名单。

新模型将提供给ChatGPT的付费用户ChatGPT Plus(每月20美元),也将作为API的一部分提供,允许开发者付费将AI集成到他们的应用程序中。OpenAI表示,多家公司已经将GPT-4集成到他们的产品中,包 DuolingoStripeKhan Academy等。

不过无论如何,这一次,我们离真人工智能,更近了一步。


华人热评


honeybunch这种测试knowledge型不是很好的比较baseline。我觉得一些没有正确答案的才是比较好的衡量标准。我前两天问一个问题:对于一个situationwhat are the best options。结果ChatGPT写不出来,卡住了。ChatGPT现在对我就是一个summary tool,还是不能够和人竞争。


睿:我很好奇gpt-3.5怎么在sat数学拿到590/800的。。。它连小学简单的加减乘除都会做错。


我看了一下对gpt4更加详细的报道,感觉数学这一块是快给攻克了。之前的3.0版本的确不行。不过这个进步的速度,逻辑方面有大大的提升。gpt5应该就非常非常强了。看来AI时代的确到来了。机器人和人类无妨碍对话,建议和咨询已经在我们的面前了。


马公的几万行code不敢保证gpt4能找bug或者改code。不过下几代的确没有这个问题了。包括很多行业,人工智能会辅助人类一起工作了。


实在不敢相信来的那么快,人工智能会慢慢的充斥在世界的各个角落。


MMmmdemo可以用来报税了


what4m:人的大脑是量子化的,在量子计算机成熟前,ai还不会取代人。


shanggj:进步速度太快了。前几天还跟女儿说,大学认真学点 AI 的东西 赶上这波革命。现在看,当心还没上完大学,革命就结束了。


orientexpress:就按两年一代的速度,现在说AI不行的方面,下一代也许就全面超越了。回顾一下AlphaGo, 刚出来还要人类棋谱来“喂”,下一代就完全脱离人类经验数据,从零开始自学习。


badgerbadger:不管文理,越是要求高的考试越不行。以后可能就1%的人有工作,其他99%吃福利。


Wugelvshi:当年深蓝攻克国际象棋的时候,就有人说,你看看象棋多简单,比起围棋来说,那简直就是小孩子的游戏。AI是攻克不了围棋的,那复杂度,AI是搞不定的。连围棋大师柯洁都曾经有同样的想法,直到阿尔法横空出世,现在大家干脆不提人工智能下棋这档子事情了,就和汽车比人跑的快一样,是默认的。现在变成了,如果一个普通人下的一手好棋,那得自己证明没作弊,不然就有人怀疑是不是屁股里塞了什么类似计算机或接收器的东西(感觉好奇怪)。


现在的数理逻辑,对gpt来说,就像当年的围棋。更何况现在这个GPT,从开始实现到现在,也就不到十年吧,已经有这么长足的进步了,谁知道二十年后会怎样呢。

文由北美华人小编整理自北美华人e网、谷歌新闻、智东西、品玩、钛媒体和36氪版权归原作者所有,未经许可不得转载,否则将进行追究,图片来自网络版权归原作者所有。如有侵权,请联系小编删除文章。

1、乾隆二十五年,后宫吃荔枝的分配方案,看完真是大跌眼镜,跟想象的完全不同!

https://huaren.us/showtopic.html?topicid=2814811&fid=398


2、第一代移民为什么这么难?

https://huaren.us/showtopic.html?topicid=2808787


3、真香!最近入手小相机。理光GR3和GR3X 随手拍照记录生活【更新作品分享】

https://huaren.us/showtopic.html?topicid=2808458


4、奔刚到的两套蓝色裙裙,今年特别爱蓝色~

https://huaren.us/showtopic.html?topicid=2800464&fid=225


5、當年唯一天后嫁給我時我長這樣 36歲

https://huaren.us/showtopic.html?topicid=2808688&fid=398


6、一直很困扰的问题?对法式深吻有多少女的喜欢

https://huaren.us/showtopic.html?topicid=2802593


7、40万的房子跌到30万,4百万的房子跌到3百万还是不一样

https://huaren.us/showtopic.html?topicid=2808775


8、这样洗头真的巨去油!经验分享

https://huaren.us/showtopic.html?topicid=2802382


9、【Cancun加勒比蓝】墨西哥Riviera Maya玛雅海滨之旅 [多图,更新完毕]

https://huaren.us/showtopic.html?topicid=2788073&fid=328


10、回报华人,写写抑郁的我是如何找到对生活的热情的

https://huaren.us/showtopic.html?topicid=2802492&fid=398


点击下方阅读原文即可下载北美华人e网论坛官网APP,仅限IOS用户。

↓↓

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Gpt 4一出,谁与争锋经济学家点评非农就业报告:好得过头太不真实!美联储不会重视自举!! 谣传GPT-4正加班加点把自己升级成GPT-5!!流浪地球官方正版授权!这辆52年后的酷炫“战车”又出升级版!GPT-4太太太强了!能识图能算税,ChatGPT再次进化给ChatGPT升级急刹车6个月?这将是人类最难达成的“停火”反击!Google 版 ChatGPT 首次亮相,有一个功能「碾压」ChatGPT一日团 | 高保湿香槟水升级版 ¥99,限量买一送一!升级版:智慧5D玻尿酸,直达肌底,肌肤更水润,更光泽,8小时持续保湿ChatGPT全新升级!能自己考上斯坦福的它,却在这项输给了中国学生..….韦神出的这道题火了,GPT二年级选课,忽闻一夜 GPT 来,千课 万课 AI 开“西直门三太子”吃笋引围观!网友:它可能知道自己是国宝斯坦福5.5万人研究:30年,男人长(cháng)了3厘米,但并非好事ChatGPT升级版发布,十秒能做一个网站!学啥专业不容易被AI抢饭碗?ChatGPT又赢了:带动股价涨三倍,成考试神器Who are the biggest losers to the US-China trade war?GPT3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站用 AI 对抗 AI!斯坦福研究人员推出 DetectGPT,专门检测 ChatGPT 等模型生成的文本谷爱凌如何靠体育进斯坦福?美高搞体育特长来得及吗?对大学申请有帮助吗?里斯本圣安东尼教堂(St Anthony\'s Church),巴洛克-洛可可风格ChatGPT惹怒主流媒体!华尔街日报、CNN授权费都没付!马斯克:ChatGPT好得吓人;用户吐槽:它有时会一本正经的胡说八道费城元旦化妆游行(2023),新年激情OpenAI揭秘ChatGPT升级计划:你找到的bug都在改了大起底!谷爱凌如何靠体育进斯坦福?美高搞体育特长来得及吗?对大学申请有帮助吗?GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!MIT常规批西南地区唯一录取,理工男无大奖进斯坦福!被“个位数”录取率暴击,谁来“救救我”?ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇美经济学家点评非农就业报告 好得过头太不真实 美联储不会重视1.2万Star!无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站《山居续忆》:第二十九章:我最早的“日记” —— 有关我出生后头两年的记录 (五)文盲农妇苦练书法20年,一夜爆红,专家点评:字体错误,毫无美感与邓丽君齐名的她,把3个儿子送进斯坦福,家长怎么做才是真正对孩子好?GPT-4偷袭发布!ChatGPT能识图和逻辑推理,靠自己考上斯坦福【附发布会中英文字幕版】AI 消灭人类GPT-4变更强了!新版ChatGPT律师考试赢9成考生向微软宣战!谷歌类ChatGPT装进办公「全家桶」,升级版Big Bard加急测试老大进斯坦福,老二老三进耶鲁,这位上海4娃爸太牛了!OpenAI发布GPT-4:能识图能算税,ChatGPT摆脱Chat,再次进化
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。