摘掉 Chat 标签,GPT-4 将释放更大生产力
作者丨李梅 黄楠
编辑丨岑峰
今日,多模态大模型 GPT-4 震撼登场!
GPT-4 能够接受图像和文本输入,输出文本,在各项测试和基准上的表现已经与人类水平相当。
OpenAI 一次性大放送,发布了 GPT-4 的技术报告、system card,并提供了 ChatGPT Plus 体验、GPT-4 的 API waitlist、demo 视频,以及用于自动评估 AI 模型性能的 OpenAI Eval 框架。
Sam Altman 称,GPT-4 是“我们迄今为止最强大、对齐最好的模型”。
在许多方面,GPT-4 都已经能做到之前 ChatGPT(GPT-3.5)所力不能及的事情。相比 ChatGPT,GPT-4 支持更长的输入,一次可接受 32768 个 token,相当于 50 页纸的内容,长篇学术论文可以直接丢给它去解读了。
GPT-4 跟 GPT-3.5 具有相同的 API 接口和交互界面,但在文本总结和加工能力上,GPT-4 有了明显的提升,这表现提出指令后,模型能更好地遵循指令给出答案。
例如让一篇文章变成一个句子,每个单词都以 G 开头,GPT-3.5 还未尝试就放弃了任务,但在 GPT-4 中可以很好地完成:
GPT-3.5
GPT-4
同时,GPT-4 对指令的理解能力更佳:
(图片来源:知乎网友:@连诗路)
此次更新中,GPT-4 最令人惊喜的能力,是它可接受图片输入,并对图片生成说明、分类和分析。比如输入一张有鸡蛋、面粉和牛奶的图片,询问 GPT-4 可以使用这些原材料做什么,得到的结果如下:
GPT-4 可以实现从图片中提取文字信息并输出到 HTML,比如尝试手绘一个笑话网站模型,让 GPT-4 尝试自动生成网站的原型图(程序员嗅到了危险的味道):
手绘的笑话网站模型图
GPT-4 根据手绘生成的笑话网站
对比 ChatGPT,GPT-4 的推理能力也有所超越,下面的结果展示了同一个问题 ChatGPT 和 GPT-4给出的不同答案:
左边为 ChatGPT,右边是 GPT-4
不仅如此,GPT-4 还能基于税务法则,帮助一对夫妻精准地计算出2018年缴纳的税额,并给出详尽的算法步骤,以便阅读解释。
据了解,OpenAI 于去年 8 月就已经完成了 GPT-4 的训练,我们与 OpenAI 的差距似乎更大了。
在技术层面,一句话概括,GPT-4 是一个 Transformer 模型,使用公开可用的数据(如互联网数据)和第三方提供商许可的数据进行预训练,预测文本中的下一个 token,然后使用 RLHF(来自人类反馈的强化学习)对模型进行微调。
在一份98页的技术报告中,OpenAI 报告了 GPT-4 的性能、局限性和安全特性,但并没有公开有关架构(包括模型参数量)、硬件、训练计算、数据集构建、训练方法等内容的更多细节。
OpenAI 声称是“鉴于竞争格局和 GPT-4 等大规模模型的安全性影响”。
关于GPT-4的参数量,此前OpenAI的CEO Sam Altman表示,GPT-4不会比GPT-3高出太多,但大家关于GPT-4拥有极大参数量的猜测仍有很多。
对此,UCL 计算机系教授、上海数字大脑研究院院长汪军认为,大力确实出奇迹,此前 ChatGPT 的语言能力很强,有一定的逻辑推理能力,但它并未真正理解数据里面的内容,它只是在原来的训练数据中、搭料能力很强,因此是具有一定局限性的,在训练里一定要加上它对整个世界的理解。举个简单的例子,以下棋为例,如果你给它所有人类的下棋数据能力,比如说2000分以下所有人的数据,如果模型只模仿人的话,那么它是模仿不出比这2000分更高的智能的。
报告地址:https://cdn.openai.com/papers/gpt-4.pdf
在这份技术报告中,OpenAI 依然传达了一些关键信息,比如 GPT-4 采用与 GPT-3.5/ChatGPT 完全相同的技术路线;有一系列的对齐方案来保证 GPT-4 输出的安全性;基于不超过 GPT-4 千分之一的计算量来准确预测 GPT-4 在一定计算规模下的性能,利用小模型的训练性能来预测大模型期望性能这一点,在 OpenAI 看来是一项核心能力,也是一个值得研究的方向。
尽管在 GPT-4 的技术细节方面,OpenAI 仍不够 Open,但这次他们也做了一次大胆的公开—— GPT-4 贡献者名单。
这份名单的最大看头在于,从下面这些详细的组别分类中可以大致看出 OpenAI 的部门组织架构,也足见 GPT-4 背后是一支多么庞大的队伍,从模型训练到评估再到安全部署,每一环都配备了大量的人力。
贡献者名单
这里一共列出了7个组别:
预训练:计算集群规模化、数据、分布式训练基础设施、硬件正确性、优化&架构、训练保姆(Training run babysitting) 长文本:长文本研究、长文本 kernels 视觉:架构研究,计算集群规模化、分布式训练基础设施、硬件正确性、数据、对齐数据、训练保姆、部署&后训练 强化学习&对齐:数据集、数据基础设施、ChatML 格式化、模型安全性、Refusals、底层 RLHF 和 InstructGPT 工作、Flagship training runs、代码能力 评估&分析:OpenAI Evals 库、模型分级评估基础设施、加速预测(Acceleration forecasting)、ChatGPT 评估、能力评估、代码评估、真实世界使用案例评估、污染性调查、指令遵循和API评估、新奇能力发现、视觉评估、经济影响评估、非扩散&国际人道主义法与国家安全的有害行为评估、过度依赖分析、隐私和PII评估、安全和政策评估、OpenAI 对抗性测试、系统卡和更广泛影响分析 部署:界面研究、GPT-4 API 和 ChatML 部署、GPT-4 web 体验、界面基础设施、可靠性工程、信任与安全工程、信任与安全监测和响应、信任与安全政策、部署计算、产品管理 其他:发布博客和论文内容、协作、计算分配支持、协议&税务&定价&资金支持、午餐合作伙伴&产品操作、法律、安全与隐私工程、系统管理与随叫随到服务
自然语言是多模态的基础
知识体系和自动化体系时代
参考链接:
https://openai.com/product/gpt-4
更多内容,点击下方关注:
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
微信扫码关注该文公众号作者