Redian新闻
>
OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

OpenAI神秘gpt2正在A/B测试,奥特曼抢先剧透,网友已玩嗨

其他
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI正在秘密A/B测试下一代模型,实力超强被怀疑是GPT-4.5或GPT-5。

就在奥特曼当谜语人暗示之后,两款新模型悄悄上线大模型竞技场。

  • Im-a-good-gpt2-chatbot

  • Im-also-a-good-gpt2-chatbot

和GPT-4-Turbo(左)同场竞技,gpt2-chatbot(右)明显更胜一筹。

提示词:画一个自由女神像。

此前一款名为gpt2-chatbot的超强模型仅仅上线一天,热情的网友就把服务器挤爆了,不得不下架,大家纷纷表示还没玩过。

这次重新上线后,模型在一次报错中直接给出了跳转OpenAI平台网站的链接

这下大家都嗨了,做实了是OpenAI在搞A/B测试?

还有人表示,这俩模型可能已经在推理和计划方面进行微调。

现在在竞技场里随机匹配,就能遇到这俩新模型。

这不,网友们已经纷纷前去测试,一探它们的底细了。

代码能力突出

和第一次露面有所不同,如今想要用上gpt2,只能在Arena(battle)里碰运气,Direct Chat中找不到它们的影子。

有的人运气好,试了5次就成功让这俩模型battle了一局。

结合几个示例来看,im-also-a-good-gpt2-chatbot生成的回答似乎总是更简洁一些。

代码生成方面,它能一次生成一个可执行的游戏代码。

提示词:Code Flappy Bird game in Python

效果如下:

如果回答的代码有误,可以进一步追问让它自己改正。

比如让它们写一个康威生命游戏的代码,在未告知使用Colab时,模型写出的代码有问题。

但继续追问并表示自己用的是Colab,im-also-a-good-gpt2-chatbot能够自己修改对代码,im-a-good-gpt2-chatbot不行。

还有在解决物理题方面,有Reddit用户说im-also-a-good-gpt2-chatbot能解答出其他模型都答不对的物理题。

问题:绿灯侠从一栋高楼楼顶跳下,他从静止状态开始做自由落体运动到地面,在他下落过程的最后1秒时,距离地面的距离是大楼一半的高度,这座楼有多高?

不过我们实测了下,im-a-good-gpt2-chatbot似乎也能做对。

还有人测试了一道推理题目,im-a-good-gpt2-chatbot可回答正确,im-also-a-good-gpt2-chatbot也能做到但需要两次提示。

问题:现在有两个足球队。球队A赢了8次,球队B赢了5次,已知还剩7次比赛,球队B想要赢得整场比赛,还需要至少赢几次?

网友:白嫖大家反馈吗?

尽管OpenAI还是没有正式认领gpt2-chatbot,但网友几乎已经默认它们是一家了。

因此有人觉得,gpt2-chatbot在竞技场上搞A/B测试,这不是让大家免费给他当志愿者。

OpenAI想要对内部模型进行人工评估,应该付给测试人员报酬,而不是在免费社区做。

有人觉得他们这么做,就是为了炒热度。

但现在gpt2-chatbot的底层模型到底是啥还不确定。

有人直接问了gpt2-chatbot,但可能存在幻觉,它表示自己基于GPT-4架构,是GPT-4.5的变体。

但之前奥特曼在公开演讲中已经否定了。测试网友表示自己没有给出过GPT-4.5相关的提示内容。

也有人怀疑,这两个模型大小不一样,叫这个名字是不是因为采用了GPT-2的架构来训练模型。

这和单纯的MoE不同,它们使用了Q*、合成数据,Sam的推特编辑历史是不是暗示了这一点?

值得一提的是,最近有大V爆料称本周OpenAI将公布进军搜索引擎的消息。

OpenAI已经更新了网站主页,第一个轮番页是一个搜索框上面写着“向ChatGPT问任何事情”

爆料说这次发布的时间可能在北京时间周五的凌晨2点。

总之,最近OpenAI的动向,都有点神秘。

参考链接:
[1]
https://twitter.com/itsandrewgao/status/1787758687651811705
[2]https://twitter.com/DimitrisPapail/status/1787899811514982887
[3]https://twitter.com/AlphaSignalAI/status/1786025388902097077
[4]https://gizmodo.com/powerful-new-gpt2-chatbot-mysteriously-returns-1851460717

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
奥特曼本人确认:神秘gpt2不是GPT-4.5!聊追剧却被剧透,俩50岁公务员直接在办公室干了一架.... 啊?千古中华魂奥特曼承认了神秘gpt2!哈佛MIT巡演继续,斯坦福演讲完整版公开GPT-5 体验首次曝光!发布时间也被剧透,来看看这些内幕消息老黄亲自上门送超算!OpenAI奥特曼签收后到斯坦福演讲GPT-5神秘大模型一夜刷屏,能力太强被疑GPT-4.5,奥特曼避而不答打哑谜首演故事|即便不剧透,关于《动机与提示》的八卦也足够开一桌GPT-4调教指令揭秘,OpenAI又「Open」了一回!网友在线追问GPT-5网友缝合Llama3 120B竟意外能打,轻松击败GPT2-chatbot和GPT-4OpenAI重磅更新定档下周一,奥特曼暗示会有「魔法」!OpenAI抓内鬼出奇招,奥特曼耍了所有人:GPT搜索鸽了!改升级GPT-4周杰伦诉网易一审败诉;奥特曼专访自曝全新GPT-5细节;东方甄选开设烤肠工厂直播间;小米回应测试车被指高速超时逃费...笑談國之怪現況 51 兩會總理記者招待會OpenAI抓内鬼出奇招,奥特曼耍了所有人GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了OpenAI下周要有大动作,奥特曼在线剧透:不是GPT-5,不是搜索引擎OpenAI神秘搞事,GPT-4.5默默上线?推理碾压GPT-4网友震惊,奥特曼笑而不语神秘大模型一夜爆红!奥特曼亲自确认,疑似GPT-4.5发布奥特曼紧急辟谣:OpenAI下周不推AI搜索!但谷歌还是在劫难逃奥特曼专访自曝全新GPT-5细节:性能跃升超想象,算力足可达AGI!微软秘密开发首个千亿大模型,竟由OpenAI对手操刀!网友:你不要奥特曼了?神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观两重惊喜!奥特曼预告GPT-4和ChatGPT重大更新,Open AI要放大招Llama 3每秒输出800个token逼宫openAI!下周奥特曼生日或放出GPT-5?周处除三害,胡因梦,灵修(2)神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型奥特曼在闭门会中说,OpenAI有责任创造更好一个的世界!背后却有大问题!学什么准备未来(三)新能源没能量该结婚则结婚,该生则生;不育不孕的烦恼;尹烨谈念头;浙里办相亲奥特曼重新加入 OpenAI 董事会;比特币突破 7 万美元大关;苹果中文官网出现 Vision Pro|极客早知道微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了拜登召集奥特曼和李飞飞等入AI安全委员会,没带马斯克!库克考虑将iPhone AI服务委托给OpenAIOpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型“美版贴吧”上市,奥特曼重金押注,腾讯大赚,张一鸣的遗憾
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。