这个全面对标 OpenAI 的国产大模型，性能已达 90% GPT-4

科技

2024-01-16 10:01

中国版的 OpenAI 在哪？

自 ChatGPT 一夜爆火以来，追赶 GPT-4 成为全球大模型创业者的目标，而在中国掀起的「百模大战」里，每一个中国 AI 从业者都想成为上述这个问题的答案。

今天上午，在智谱 AI 技术开放日上，智谱 AI 正式发布新一代基座大模型 GLM-4 且全量上线迭代功能，再次证明了其是目前国内唯一一个有能力全面对标 OpenAI 的大模型公司。

去年 10 月，智谱 AI 宣布累计获得超 25 亿人民币融资，是国内唯一一个估值破百亿的大模型独角兽。

翻开一连串投资方的名单，其中不乏美团、阿里、腾讯等互联网大厂，亦或者红杉、高瓴等多家一线投资机构，堪称集齐了中国投资界的半壁江山。

过硬的技术实力和融资能力，充分展现出智谱 AI 与 OpenAI 「划道对峙」的决心和潜力。

对标 OpenAI，发力 AI 大模型

本次发布会正式发布了新一代基座大模型 GLM-4，比上一代提升 60%，支持更长的上下文处理，多模态能力更强，推理速度更快，并发能力更强，同时降低了推理成本。

作为一款中英双语对话模型，GLM-4 的基础能力（英语）在众多基准测试中取得了优秀的成绩，平均水平已经达到 GPT-4 的 90% 水平。

在指令跟随能力（中英）上，GLM-4 的表现在多个领域都接近 GPT-4 的 90% 水平，在中文对齐能力上则是遥遥领先，专业能力、中文理解、基本任务、数学计算等方面都大幅超过 GPT-4。

更长的上下文长度可以帮助模型更好地理解输入数据的含义和上下文，从而更准确地预测输出，提高泛化能力。从 32K 提升至 128K 上下文窗口，GLM-4 单次可处理 300 页文本。

且 GLM-4 在总结、信息提取、复杂推理以及编写代码等应用场景上表现更佳，基准测试成绩再次超越了 GPT-4。以此前热门的「大海捞针」（128K）的测试活动为例，GLM-4 甚至能够做到百分百精准召回，达到了 128K 内全绿的惊人效果。

另外，GLM-4 的对标也延伸到了文生图领域。现场发布的各项基准测试成绩显示，智谱 AI 旗下的 CogView3 交出的成绩单几乎媲美 DALL·E 3，整体的效果也普遍超越了开源的 Stable Diffusion XL。

例如，CogView3 生成的「西兰花下面的斑马」图中，整体的画面控制十分精准。继续「上强度」挑战更复杂的场景，让它生成一只脸上涂着霓虹绿、霓虹橙还有亮颜色颜料的波美犬时，可以看到，生成图对于颜色场景的还原度还是挺高的。

临近演讲中场，本次发布会的另一重头戏正式推出——GLM-4 All Tools。得益于 GLM 模型强大 Agent（智能体）能力，GLM-4 能够根据用户意图自主理解、规划复杂的指令，自由地调用各种工具，如 WebGLM 搜索、代码解释器等，支持完成各项复杂的任务。

只需一个指令，GLM-4 All Tools 就能自动分析指令，并结合上下文选择决定调用合适的工具。上到生成可爱小狗、生成复杂代码，下到 PPT 生成、文件处理、数据分析、网页浏览等，只需在对话框中输入你的想法，它都能实现。

值得一提的是，GLM-4 All Tools 的网页浏览功能实现了模型自行规划检索任务、自行选择信息源，以及自行与信息源交互的大升级。

例如，当你提出要参加 2023 年 CCF 中国开源大会，并询问当天当地天气时，它会先联网查询 2023 年 CCF 中国开源大会的日期地点，然后再查询当天的长沙天气，且网页浏览的答案准确率也大幅度超越 GPT-4 ALL Tools。

此外，智谱 AI CEO 张鹏重磅宣布，基于 GLM 模型的强大能力，GLMs 已经正式上线。体验地址入口 👉：https://chatglm.cn/

现在任何用户只要登录智谱清言的官方网站，就可以在智能体中心创建各种智能体。未来，GLMs 模型应用商店和开发者分成计划也将同期公布。

最后在 Demo 演示环节，张鹏也借着 GLMs 演示了 GLM-4 的多轮对话以及图片生成能力。只需几口咖啡的时间，就能让 ChatGLM 生成一只可爱小狗。

当被要求生成聪明小狗时，它合时宜地生成了在图书馆学习的小狗，即使面临赛博狗的理解测试也丝毫没有压力。不过，在现场的测试环节中，当张鹏让 GLM-4 回到起点，变成可爱小狗时，直接来了波「小翻车」。

当前 GLM-4 已经登陆了 Maas 平台，将提供 API 访问。张鹏再次强调称，we are more open，从 ChatGLM-6B 一代、二代、三代以来，智谱 AI 陆续开源了所有内核的模型，将帮助更多开发者一起探索大模型。

两条腿走路：技术领先与商业落地

2023 年被广泛地认为是大模型爆发之年，但对智谱 AI 来说，这已是厚积薄发的第三个年头。早在 2020 年大洋彼岸 GPT-3 发布之际，智谱 AI 也已经洞察到大模型赛道的潜力和价值，并下决心全力布局这个领域。

直到三年后，伴随着 ChatGPT 的爆火，智谱 AI 也在一片热闹的竞争环境中，凭借一连串领先的底层技术脱颖而出，让更多人开始注意到这位国产大模型的尖子生。

智谱 AI 2023 年研究成果：

3 月，智谱 AI 发布千亿基座的对话模型 ChatGLM 及其单卡开源版本 ChatGLM-6B，全球下载量超 1000 万。

5 月，开源多模态模型 VisualGLM-6B（CogVLM）正式上线。

6 月，智谱 AI 推出全新升级的 ChatGLM2 模型矩阵，模型能力登顶 C-Eval 榜单。

8 月，智谱 AI 正式上线首款生成式 AI 助手——智谱清言

10 月，智谱 AI 发布全面升级的 ChatGLM3 模型及其相关系列产品，参数从 6B、12B、32B、66B 到 130B 不等。

12 月，智谱 AI 发布新一代图像理解大模型 CogAgent，具备图像多轮问答、视觉定位等多种能力。

而现在，伴随着此次发布会功能的上新，智谱 AI 再次成为目前国内唯一一个全面对标 OpenAI 全模型产品线的大模型公司。

去年当智谱 AI CEO 张鹏被问及未来的重心时，他表示：「就两条腿走路，一条腿是继续追求技术上的领先，另一条腿是持续商业化落地。」

在行业内评价里，智谱 AI 一直被称为「三有企业」，即有团队、有技术、有客户。

张鹏在接受媒体采访时也说到「从公司的发展路径上来说，智谱 AI 是带着技术，带着团队，带着客户和市场直接启动。我们是一边做核心的技术，一边去拓展市场。」

和市面上大多数大模型厂商有所不同，智谱 AI 专注研究和开发基座大模型。在智谱 AI 的理念中，基座大模型就像是一座桥梁，连接着最前沿的 AI 和最实际的应用场景。

但就像计算机操作系统一样，操作系统只提供了基本的框架和接口，还需要开发具体的应用程序才能实现特定的功能需求。大模型作为基础性技术平台，也需要与实际业务场景结合，才能释放价值并创造效益。

为了平衡成本和收益，在具体商业化的落地路径中，智谱 AI 选择了 To B（即企业对企业）市场的战略，更深入地了解企业客户的需求，提供更为定制化的大模型产品和服务，而不是在所有上层应用领域盲目内卷。

在 C 端，智谱 AI 也同样交出了一份亮眼的成绩单。七麦数据显示，自去年 8 月份正式上线首款生成式 AI 助手智谱清言以来，不到两个月的时间，智谱清言 app 在各大应用商店的累计总下载量就已经超过了 1500 万，如今下载量的增长势头也依然强劲。

当然，像 OpenAI、Anthropic、智谱 AI 等公司，其野心远不止于此。商业化落地对他们来说，只是征途中的一个驿站，其万变不离其宗的终极目标，依然是推进 AGI 的发展。

从卡塔尔世界杯的 AI 手语数字人华同学，到如今推出的 GLM-4 大模型，对标 OpenAI 的智谱 AI 多年来的技术路线和理念始终与 AGI 的最终目标相契合。

AGI 的诞生并非想象中的近在咫尺，诸如 ChatGPT、GLM 模型的问世无疑加速了这一期待。作为 AGI 最为关键的大模型技术，在过去一年实现了质的飞跃，也预示着 2024 年可能成为 AI 领域的一个转折点。

智谱 AI 从成立之初就怀揣着让机器能够像人类一样思考的宏伟愿景，这与实现真正 AGI 的目标不谋而合，而想要模拟甚至超越人类智能，则需要在算法、计算力、数据、交互等多个维度上达到质变。

但正如智谱 AI CEO 张鹏在发布会上所言：「我们今天在这样的日子里来交个答卷，也希望以此为起点，未来能以此为基础瞄向 AGI。」

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章