Redian新闻
>
神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了

神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了

公众号新闻
整理 | 华卫

昨晚,一个突然出现在 LMSys 基准测试网站的神秘模型,在大模型领域掀起了巨大波澜。用过的人都在夸,刚发布服务器就被挤爆,奥特曼也迅速出现在吃瓜现场...

而这一切的主角,就是 gpt2-chatbot。没有出处,也没有介绍,在没有官方文件的情况下,一夜间“惊艳”所有人的视线。

有人认为 gpt2-chatbot 可能是 OpenAI 的下一个模型,还有人说它是 GPT-4.5 或 5 的 beta 测试,甚至有评价称这可能是对 GPT 架构的根本升级。尽管该模型的系统提示表明它来自 OpenAI,但 gpt2-chatbot 却拒绝引用 OpenAI。

有意思的是,在众人猜测 gpt2-chatbot 身份的时刻,Open AI 的 CEO Sam Altma 发帖表达了对 gpt2-chatbot 的喜爱:“我确实对它情有独钟。”

对此,有网友评价说:“如果不是 ChatGPT 的新版本,OpenAI 就有麻烦了!” 也有网友表示,“希望它不是 GPT-5,这个模型很难完成 Opus 擅长的推理任务。”

以下是部分用户对 gpt2-chatbot 的测试重点总结:

  • gpt2-chatbot 一直声称“基于 GPT-4”并具有“v2”个性,并称自己为 ChatGPT。

  • 其呈现自己的方式,通常与其他在 OpenAI 数据集上训练的模型的幻觉回复不同。

  • 它似乎使用了 OpenAI 的 tiktoken 分词器,对 OpenAI 使用的特殊 token 有反应,且对 Claude/Llama/Gemini 使用的特殊 token 没有反应。

  • 当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。

  • 它表现出特定于 OpenAI 的提示注入漏洞,且从未声称属于 OpenAI 以外的任何其他实体组织。

  • 对于相同的提示,gpt2-chatbot 始终提供与 Anthropic、Meta、Mistral、Google 等模型不同的输出。

效果领先多个模型

gpt2-chatbot 一经发布,众多用户都涌入这一模型测试其在各领域的表现。从公开平台的反馈来看,该模型在多方面的能力和实际效果都赶上甚至超过许多其他的前沿模型。

例如,gpt2-chatbot 可以在 PyOpenGL 中一次性生成旋转 3D 立方体, 而 GPT-4、Gemini-1.5 和 Claude-3 需要尝试三次才可以。

在解决兄弟姐妹之谜时,gpt2-chatbot 得出和 GPT-4 Turbo 相同的结果。

除这两个案例外,还有许多网友抛出了 gpt2-chatbot 在解决各类问题时的优秀能力。

网友 @Andrew Gao:gpt2-chatbot 一口气正确解决了 IMO(数学奥林匹克)问题。

网友 @murat :该模型可以解决一些 GPT-4 做不到的事情,如 A+B-1 的数学问题,打破了非常强的学习惯例。

网友 @Phil:用 gpt2-chatbot 制作 ASCII 艺术的效果领先于任何其他模型。

网友 @murat :gpt2-chatbot 第一次尝试就解决了在 Claude Opus 、GPT4 和 llama3-70b 模型上失败的 TypeScript 编写问题,并且没有错误。

不仅在复杂的代码操作任务以及用于测试新模型的所有编码提示上,gpt2-chatbot 比 Claude Opus 以及最新的 GPT-4 更好。当被要求规划 LLM 代理的计划以帮助用户预订晚餐时,gpt2-chatbot 也能给出出色的响应。

模型的神秘来源

“在我看来,这个神秘模型很可能是 GPT-4.5 或 GPT-5,或者实际上是一个真正的 GPT-2 模型,由 OpenAI 或 LMSYS 提供。总的来说,它输出的内容质量,特别是格式、结构和整体理解,绝对是一流的。对我来说,这感觉就像是从 GPT-3.5 到 GPT-4 的一步,但以 GPT-4 为起点。”

关于 gpt2-chatbot 的公开网页介绍(非官方)

当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。而且,该模型使用 OpenAI 的 token 分词器,对 OpenAI 使用的特殊 token 有反应。

一种猜测认为,gpt2-chatbot 实际上是基于 GPT-2 架构的,其表现出的能力大大超出了任何以前已知的 GPT-2 模型。

另一种可能性是,它实际上是一个 GPT-2 模型。最近(2024 年 4 月 7 日)Meta/FAIR Labs 和 Mohamed bin Zayed AI University of AI (MBZUAI) 的一篇题为《语言模型物理学:第 3.3 部分,知识容量缩放定律》的文章深入研究了 GPT-2 架构的细节,并确定:“ GPT-2 架构在知识存储方面与 LLaMA/Mistral 架构相当甚至超过,尤其是在较短的训练持续时间内。”

至于该模型被认为是 GPT-4 的强烈说法,可以通过主要利用 GPT-4 生成的数据集来解释。然而,gpt2-chatbot 确实有一个与 GPT-4 模型不同的速率限制,用于直接聊天:

虽然尚未比较对总速率限制与用户特定速率限制的完整限制,但在每日用户限制以及其他一些总服务限制上比 GPT-4 模型更具限制性。这可能意味着,该模型在计算方面的成本更高,并且提供计算的人更喜欢用户使用 Arena (Battle) 模式来生成基准测试。

如果 LMSYS 是 gpt2-chatbot 的模型创建者,那么该文章的一些结果的应用就可以利用通过 LMSYS 生成的数据集进行训练等。

如果你想试用或者帮助解开 gpt2-chatbot 的身份谜题,现在可以进入到 LMSys 网站(https://chat.lmsys.org/)并选择 gpt2-chatbot。每个用户每天可以测试 8 条消息的直接聊天,之后可以切换到“竞技”模式尝试匹配到该模型选项。另外,尝试时至少需要对所有提示展开三次验证,以获得达到该模型平均能力的结果。

参考链接:

https://rentry.co/GPT2

https://twitter.com/itsandrewgao/status/1785013026636357942

 内容推荐

探索智能科技的新边疆,《2024 年第 1 季度中国大模型季度监测报告》正式发布!OpenAI Sora 大模型和 NVIDIA Project GR00T 的发布、人形机器人的突破以及编码智能体的到来,正开启 AI 大模型的新纪元。在开源与闭源并行的新趋势中,AIGC 写作和 PPT 制作工具的测评展示了 AI 在内容创作和视觉呈现上的巨大潜力。InfoQ 研究中心邀您一同见证 AI 浪潮如何塑造未来🚀。欢迎大家扫码关注「AI 前线」公众号,回复「季度报告」领取。

 活动推荐

叮咚!微软邀请你来参会啦!

5 月 17 日,Azure OpenAI Day 将落地成都!来自微软的数位技术大咖将带你一站式了解 Sora、GPT-4 Vision 及 Azure OpenAI 等热门议题的最新进展!席位有限,速来抢位!

扫码或点击阅读原文,立即报名~

26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要


苹果与 OpenAI 重启谈判,Siri 或引入 ChatGPT,网友:国行用文心一言?


大模型开闭源争吵不休:开源落后闭源一年,决定模型能力的不是技术?


曝谷歌Python团队全员被裁;清华系团队“国产Sora”:视频突破16秒;“社恐”周鸿祎:喊话贾跃亭、雷军送自己车|AI周报

你也「在看」吗?👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
发布屡次截胡?OpenAI与谷歌携新版大模型再度交锋 | 大模型一周大事熵泱——第三十一章GPT-4调教指令揭秘,OpenAI又「Open」了一回!网友在线追问GPT-5OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了OpenAI 宣布终止对中国、朝鲜、俄罗斯等地区提供 API 服务,大家怎么看?神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型挺突然呀,OpenAI CEO奥特曼和他的丈夫承诺捐出大部分财富阿里云进军大模型一年,现在是开源第一名,CTO:闭源要超过所有开源模型才有机会参与讨论大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事OpenAI否认加入的AI搜索已是一片红海!Stack Overflow 数据用于 AI 训练再次引发争议!| 大模型一周大事OpenAI神秘搞事,GPT-4.5默默上线?推理碾压GPT-4网友震惊,奥特曼笑而不语重磅新规!加国华人回国后先干这事 省时省力!不过回加拿大可能要有大麻烦……OpenAI CEO Sam Altman斯坦福闭门会!GPT-5将远超GPT-4!用GPT-4纠错GPT-4!OpenAI推出CriticGPT模型;谷歌Gemma 2发布,与第一代相比性能更高丨AIGC日报Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了国产版Sora到来!视频大模型更上一层楼 | 大模型一周大事马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!美股基本面 - 2024_03_01 * 晚报 * 收盘:标普与纳指再创新高 标普500指数首次收在5100点之上。周五美国W全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香神秘大模型一夜刷屏,能力太强被疑GPT-4.5,奥特曼避而不答打哑谜OpenAI releases real自然世界历播报【长篇小说】县委副书记(058)上帝视角下的蓝天白云?大模型改变气象预测格局 | 大模型一周大事神秘大模型一夜爆红!奥特曼亲自确认,疑似GPT-4.5发布国产大模型评测超GPT-4!李开复:十年内不会套现GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观蚂蚁百灵大模型一号位:GPT-4o发布不意外,原生多模态方向已明今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报OpenAI下周要有大动作,奥特曼在线剧透:不是GPT-5,不是搜索引擎新大陆 (1)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。