国际科技财经博客移民网络热点娱乐民生时事公众号

>

国产「GPTs」登场！清华系重磅发布GLM-4全家桶，性能可达90% GPT-4

国产「GPTs」登场！清华系重磅发布GLM-4全家桶，性能可达90% GPT-4

公众号新闻

2024-01-16 06:01

新智元报道

编辑：编辑部

【新智元导读】狂飙三个月，智谱AI的大模型全家桶震撼发布了！GLM-4性能超进化，堪称「国产GPT-4」；GLMs和GLM Store，直接对标OpenAI的GPTs。

今天，国内唯一一家全系对标OpenAI的公司，又搞了一个大新闻！

就在刚刚，智谱AI发布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。

其中，GLM-4不仅在中文能力上超过了所有竞争对手。

而且，长文本能力也一骑绝尘，实现了128K「大海捞针」全绿。

除此之外，智谱AI这次还发布了「定制化的个人GLM大模型」GLMs和GLM Store，再次对标OpenAI的GPTs！

新一代GLM-4，全面比肩GPT-4！

那么，这次新一代基座大模型GLM-4，究竟强在了哪？

与上一代ChatGLM3相比，GLM-4在综合能力上实现了全面跃升，性能提升了60%，已经逼近GPT-4。

它能够支持更长的上下文，具备更强的多模态功能，支持更快的推理，更多并发，推理成本大大降低。

同时，GLM-4也增强了智能体能力。

基础能力

从众多评测集中可以看到，GLM-4的性能提升非常明显。

相比于GPT-4，GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。

而在HumanEval数据集上，GLM-4则拿到了72分，明显超过了GPT-3.5和GPT-4的水平。

指令跟随

在IFEval评测集上，在Prompt提示词跟随（中文）方面，GLM-4达到了GPT-4 88%的水平。

在指令跟随（中文）方面，则达到了GPT-4 90%水平，大大超过GPT-3.5。

中文对齐

在模型实际应用过程中，大家更关注的，是中文的对齐能力。

在对齐能力上，基于AlignBench数据集，GLM-4超过了GPT-4在6月13日发布的版本，逼近GPT-4最新（11月6日Turbo版本）效果。

在专业能力、中文理解、角色扮演方面，GLM-4甚至超过了GPT-4的精度。

不过，在中文推理方面，GLM-4的能力还有待进一步提升。

128K长文本

此前的128K大海捞针测试，难倒了众多大模型，但GLM-4却顺利通过。

在大海捞针测试中，128K文本长度内，GLM-4模型均可做到几乎百分百的精度召回。

GLM-4带来128K的上下文窗口长度，也就意味着，在单次提示词中，可处理文本达到了300页。

开发者再也不用担心文档太长，一次性处理不完了。

同时，模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。

多模态能力

这一次，GLM-4的文生图和多模态理解都得到增强。

全新推出的CogView3，效果明显超过开源最佳的Stable Diffusion XL，逼近最新OpenAI发布的DALL·E 3。

在对齐、保真、安全、组合布局等各个评测维度上，CogView3的效果都达到DALL·E3 90%以上水平。

相对之前，CogView3的语义理解能力都得到大大增强。

「鱼眼镜头中，有一只乌龟坐在森林里。」

模型准确地理解了什么是鱼眼镜头，以及乌龟在森林里的环境应该是怎么搭配的。

「西兰花下面的斑马」，模型理解得很准确。

「一只打扮的像20世纪80年代的职业摔跤手的博美犬，脸上涂着霓虹绿、霓虹橙，还有亮绿色的颜料」，这么复杂的prompt，模型也没出错，对于颜色、场景，都做到了高质量还原。

「一个放大镜在一页20世纪50年代的《蝙蝠侠》漫画的上空」，模型非常准确地理解了空间位置，以及放大镜蕴含的逻辑作用。

GLM-4 All Tools全家桶来了

上面，都还只是常规的单项模型基础能力提升，大会上最让人眼前一亮的，还是GLM-4-All-Tools全家桶。

在以往，我们都需要魔法咒语一样的提示词或者代码，才能调用大模型的能力。无论是回答问题、画一幅画还是使用外部知识源，总觉得LLM还不够聪明。

而现在，得益于GLM模型的强大Agent能力，GLM-4实现了自主根据用户意图，自动理解、规划复杂指令，自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力，从而完成更加复杂的任务。

也就是说，GLM全家桶的能力，终于实现了ALL IN ONE！

画图

在AI画图方面，GLM-4 All Tools可以很好地结合上下文语境进行创作。

比如，我们可以先画一只卡通柯基。

随后只要说「它开始跑步了」，GLM-4 All Tools就能理解，我们要的还是这只柯基在往前跑。

告诉GLM-4 All Tools「一只小兔子加入它一起」，它就明白柯基是主角，兔子需要跟在柯基后面，同时保持奔跑。

告诉它「跑得越来越快了」，背景就会虚化。

总之，GLM-4 All Tools对上下文语境的理解非常准确。

代码解释器

同样，GLM-4也内嵌了代码解释器，能够自动调用代码解释器，进行复杂的方程或者微积分求解。

在以下数据集上，GLM-4 All Tools取得了和GPT-4 All Tools相当的性能。

下面这道数学多项式，该怎么求解？

或许可以直接训练一个数学模型，但问题更复杂的时候，LLM就容易出现幻觉。

而GLM-4，则可以通过调用Python解释器，进行复杂计算，自动写出求解代码。

不仅是数学问题，代码解释器还能完成文件处理、数据分析、图表绘制等复杂任务，支持处理Excel、PDF、PPT等格式的文件。

可以让模型自动生成PPT大纲，还能调用代码，生成PPT文件。

网页浏览

靠着All Tools全家桶，GLM-4可以实现更高级的网页浏览。

期间，模型会根据任务自行规划检索任务，自行选择信息源，自行与信息源交互。

比如可以问它：我要参加2023年的CCF开源大会，当地天气是怎样的？

这个问题的难点在于，我们并没有告诉它会议地点，模型自动进行了两次搜索，第一搜到了大会是10月21日在长沙举行，第二次搜到了长沙在10月21日的天气。

可以看到，GLM-4 All Tools的网页浏览准确率，已经超过了GPT-4，令人印象深刻。

Function Call

All Tool还有一个通用能力：根据用户提供的function描述，自动选择所需function并生成参数，以及根据function的返回值生成回复。

这方面的能力，已经跟GPT-4基本持平，在中文理解上，GLM-4 All Tools比GPT-4略强。

多工具自动调用现场实测

在大会现场，GLM-4 All Tools进行了一番怼脸实测。

比如，让GLM-4 All Tools联网搜索「智谱2024 DevDay的宣传语」，然后就此主题画一幅画。

可以看到，大模型自动搜索找到了相关发布页面。

同时，生成的图片也很好地还原了GLM-4的意境。

这幅图描绘了智谱2024 DevDay宣传语中的场景。图中展现了勇敢的⼈站在汹涌的潮头，⾯对远处的⻛暴毫不畏惧。

GLM-4可以识别语义并联网，搜索多个数据源。

它还可以生成一段代码，把生成的数据可视化出来，生成简单的图表。

一句简单的输入，联网搜索、提取、代码解释器、绘图等多项原生能力就随之启动，根本无需手动控制。模型强大的理解、解释能力，也就随之而来。

我们可以让GLM-4搭建一个多项式回归预测模型，预测未来5年的全球GDP发展态势。

这样，就能更直观地看到过去十年和未来五年的发展趋势。

根据从MacroTrends获取的数据，我绘制了2007年⾄2022年全球GDP的折线图。在图表中，我已经将下降的数据点标记为红⾊，以便于识别。您可以查看这张图表，以直观地看到全球GDP的变化情况。

值得一提的是，GLM-4升级后，API调用价格维持0.1元/千tokens不变，继续保持较低水平。

国产「GPTs」全新上线

可以看到，智谱AI针对OpenAI的这种对标，不仅仅是「我有」产品，而是在诸多方面都达到了可比程度。

最令开发者期待的是，国产「GPTs」也来了！

DevDay上，智谱AI上线了定制化个人GLM大模型——GLMs。

现在，无需代码基础，任何用户均可用简单的prompt指令，创建属于自己的GLM模型智能体，从而实现对大模型的便捷开发。

比如，智谱AI这次就给自己的DevDay做了一个GLMs。

只要打开智谱清言，进入智谱DevDay的智能体，就可以提问今天大会的事宜。甚至能直接要到现场PPT的下载地址。

并且，GLMs模型应用商店，也有开发者分成计划。

看得出，智谱AI可定制Agent——GLMs的发布，以及上线的GLM Store，在走和OpenAI一样的路线。

继首届开发者大会上发布定制GPTs之后，OpenAI上周正式推出人们期待已久的GPT Store。

短短2个月的时间，全世界已经诞生了300万个自定义的ChatGPT。网友纷纷表示，这就是AI时代的「APP Store」时刻。

简单来说，GLMs降低了大模型的使用门槛，可以让更多的人参与进来，为AI广泛落地铺平了道路。

相较于调用单纯的大模型，GLMs就像一个Agent，可以通过上传文件，比如私有数据等，让其获得额外的知识。这样，定制化的GLMs就能提升对特定问题回答的准确性，以极高的精度执行任务。

苹果在2008年推出APP Store的最大价值在于，创造了一个新的生态，为第三方开发者带去数百万亿美元的收入。

在AI新时代下，不论是GPT Store，还是GLM Store，都将带领世界开发者走向一条新的LLM商业化道路。

好消息是，GLMs和GLM Store今天就已正式上线！

复杂的模型产业链，一步步做起

众所周知，大模型是一个复杂的产业链。而行业对此的共识是：共同创造，才能产生真正的社会价值。

那么，要做到这一点，首先要让大模型本身的能力足够强。

第一步，模型够强

在这一方面，智谱AI从未停下过自己的脚步。

自2019年成立以来，这家AI初创公司便致力于打造新一代认知智能大模型，专注于做大模型的中国创新。

一年后，智谱AI从0开始研发全新的GLM预训练架构，并在2022年推出了中英双语千亿级超大规模预训练模型GLM-130B。

到了2023年，GLM系列大模型保持每3-4月更新一次的频率，逐渐形成了全面的AIGC产品矩阵。

而这一次，性能足以媲美GPT-4的基座大模型GLM-4，是智谱AI进一步研发能力的体现。

智谱AI CEO张鹏在技术开放日上表示，「GLM-4的推出，标志着国产大模型有能力对标世界人工智能最先进水平」。

模型之后，就是生态

除了模型自身的能力之外，开源社区和学术界的支持也至关重要。

开源的意义在于，联合全球的开发者、研究机构、企业，共同让模型的数据更丰富、模型更优化、应用更全面。

而对于个人开发者和中小企业来说，也能以最低的成本调用模型，不需要花费高昂成本。

在国外，Meta以Llama 1的发布为起点，开辟了开源大模型竞相爆发的新路线。

随着越来越多研究人员的加入，羊驼家族也迎来了大爆发：Alpaca，Vicuna，Llama-Adapter，Lit-Llama等变体相继出现。

几个月后，Llama 2在很大程度上取代了Llama 1，成为功能更强的基础模型，甚至官方还推出了其他的微调版本。

同样，国内的开源引领者智谱AI也早有布局。

2022年，智谱AI率先开源高精度双语千亿模型GLM-130B和ChatGLM-6B。

目前，GLM系列模型在Hugging Face上的下载量已经超过了1100万，在GitHub上累计星标超过5万。而智谱AI也成功跻身全球最受欢迎开源机构第5。

基座大模型GLM-4和GLMs等，会进一步推动GLM的模型生态建设，让智谱AI已经构建起的全模型产品线更加强大。

2024年，智谱对于学术的支持还会继续。1000万元现金和算力资源的大模型科研基金，2023年来已经有三十余所高校参与。

现在，每一个研究者，均有机会参与大模型的研究，还会拥有自己研发的知识产权。

此外，智谱AI还针对开源社区发起了大模型开源基金，为优秀的开发者提供了高达三个「一千」的支持——1000张卡、1000万人民币和1000亿tokens。

同时，智谱AI还重磅升级了面向全球大模型创业者的「Z计划」。

创业基金的总额，达到10亿元！

这项基金，用于支持大模型原始创新，覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等各个方面。

联合上下游，推动产业升级

而在商业领域，智谱AI在2023年里已经积累了1000多家合作伙伴，并与200多家实现了深度共创。

怎么看一个大模型好不好用？最终结果，还是要看有没有真正的落地。

目前，GLM系列模型的能力，已经覆盖了包括金融、咨询、互联网、传统消费产品、智能制造、传媒等诸多领域。

与此同时，智谱AI还将包括国产芯片、不同垂直领域服务集成商等上下游行业合作伙伴团结到一起，共同推动整个产业进步与升级。

可以看到，围绕着GLM系列模型的生态圈，正在加速形成。

智谱AI CEO张鹏表示，「一枝独秀不是春，中国的人工智能事业要繁荣、要发展，需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿，而且有能力为打造繁荣的国产大模型生态贡献自己的力量」。

参考资料：

https://chatglm.cn/main/toolsCenter

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

清华叉院提出「GenH2R」框架，用百万场景打造基于视觉的通用人机交接策略国产「GPTs」上线！全面对标 OpenAI 的智谱发布大模型，性能逼近 GPT-4 Google发布Gemini，暗示GPT-4不是「原生」多模态 “龙”重登场！全家都能穿的国潮年服，新年氛围感直接爆棚~智能周报｜Google发布Gemini；OpenAI推迟发布GPT商店；微软明年发布新版Windows，AI功能大幅增强…重磅！ChatGPT放大招！GPT Store应用商店今天上线！超300万GPTs，内卷之下的赚钱机会！我们俩仅此一场！纽约爱乐中国新年音乐会“龙”重登场！福利折扣码来了！chat gpt 怎么上不去了？彻底罢工了联想怒砸3000w，让国产「降噪耳机」崛起！5级“主动降噪”，电话犹如面聊...百元入！2024机械师春季新品发布会：发布首套星闪超级电竞“全家桶”说一个有关Open AI的Chat GPT 创投人和我家的小故事 OpenAI 忙着“宫斗”，手握 2.2 万块 H100 的竞争对手趁机发布新款大模型：1750 亿参数，性能仅次于 GPT-4 国产 GTPs 上线！智谱 AI 推出 GLM-4 全家桶，我们浅试了一下重磅！2024 US News 全美「本科CS」排名发布！卡梅痛失第一，“黑马校”要火......新MacBook Air或明年春季推出/Google发布Gemini大模型，多领域超越GPT-4/微软Copilot重磅升级维基百科+大模型打败幻觉！斯坦福WikiChat性能碾压GPT-4，准确率高达97.3%挤暖和超越GPT-4！谷歌DeepMind重磅发布Gemini，史上最强最通用大模型！《歌德堡变奏曲1461》41、长篇民国小说《永泰里》第九章欢迎“友”军（3）全面对标OpenAI生态！智谱AI推出GLM-4大模型全家桶，GLMs上线，不会编程也能创建Agent 怒砸3000w，让国产「降噪耳机」崛起！5级“主动降噪”，电话犹如面聊...百元入！OpenAI忙着“宫斗”，手握2.2万块H100的竞争对手趁机发布新款大模型：1750亿参数，性能仅次于GPT-4 GLM-4国产大模型上线称整体性能逼近GPT-4 降低推理成本 720亿参数大模型都拿来开源了！通义千问开源全家桶，最小18亿模型端侧都能跑晨游---自己哄自己 1元=1700000tokens！清华系发布国产Mistral仅2B，老手机都带得动，GitHub一天斩获300+星国产GPTs来了，基于智谱第4代大模型！模型性能均达GPT-4九成以上什么叫国产「自研」手机系统？套壳、试水、突围...谁真能摆脱安卓？两月超300万GPTs！深扒全球Top 100 GPTs，有哪些财富密码？AI早知道｜ChatGPT灰度测试多GPTs协同；新Bard逆袭GPT-4；百川智能发布Baichuan3 GPT 「国产版」GPTs 来了？体验字节跳动的「扣子」后，我发现它比 GPTs 强在这一点这个全面对标 OpenAI 的国产大模型，性能已达 90% GPT-4 1/10价格穿上国产「始*鸟」，高压水枪滋不透，刀刮不烂……最新！Google华人杀妻案早有征兆，知情人怒斥Google清华系“宠物群”，事前集体撺掇，事后全部装哑清华系2B模型杀出，性能吊打LLaMA-13B，170万tokens仅需1块钱！

热点事件追踪