Redian新闻
>
国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

公众号新闻



  新智元报道  

编辑:编辑部
【新智元导读】狂飙三个月,智谱AI的大模型全家桶震撼发布了!GLM-4性能超进化,堪称「国产GPT-4」;GLMs和GLM Store,直接对标OpenAI的GPTs。

今天,国内唯一一家全系对标OpenAI的公司,又搞了一个大新闻!

就在刚刚,智谱AI发布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。

其中,GLM-4不仅在中文能力上超过了所有竞争对手。

而且,长文本能力也一骑绝尘,实现了128K「大海捞针」全绿。

除此之外,智谱AI这次还发布了「定制化的个人GLM大模型」GLMs和GLM Store,再次对标OpenAI的GPTs!

新一代GLM-4,全面比肩GPT-4!

那么,这次新一代基座大模型GLM-4,究竟强在了哪?

与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。

它能够支持更长的上下文,具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。

同时,GLM-4也增强了智能体能力。

基础能力

从众多评测集中可以看到,GLM-4的性能提升非常明显。

相比于GPT-4,GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。

而在HumanEval数据集上,GLM-4则拿到了72分,明显超过了GPT-3.5和GPT-4的水平。

指令跟随

在IFEval评测集上,在Prompt提示词跟随(中文)方面,GLM-4达到了GPT-4 88%的水平。

在指令跟随(中文)方面,则达到了GPT-4 90%水平,大大超过GPT-3.5。

中文对齐

在模型实际应用过程中,大家更关注的,是中文的对齐能力。

在对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4在6月13日发布的版本,逼近GPT-4最新(11月6日Turbo版本)效果。

在专业能力、中文理解、角色扮演方面,GLM-4甚至超过了GPT-4的精度。

不过,在中文推理方面,GLM-4的能力还有待进一步提升。

128K长文本

此前的128K大海捞针测试,难倒了众多大模型,但GLM-4却顺利通过。

在大海捞针测试中,128K文本长度内,GLM-4模型均可做到几乎百分百的精度召回。

GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。

开发者再也不用担心文档太长,一次性处理不完了。

同时,模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。

多模态能力

这一次,GLM-4的文生图和多模态理解都得到增强。

全新推出的CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近最新OpenAI发布的DALL·E 3。

在对齐、保真、安全、组合布局等各个评测维度上,CogView3的效果都达到DALL·E3 90%以上水平。

相对之前,CogView3的语义理解能力都得到大大增强。

「鱼眼镜头中,有一只乌龟坐在森林里。」

模型准确地理解了什么是鱼眼镜头,以及乌龟在森林里的环境应该是怎么搭配的。

「西兰花下面的斑马」,模型理解得很准确。

「一只打扮的像20世纪80年代的职业摔跤手的博美犬,脸上涂着霓虹绿、霓虹橙,还有亮绿色的颜料」,这么复杂的prompt,模型也没出错,对于颜色、场景,都做到了高质量还原。

「一个放大镜在一页20世纪50年代的《蝙蝠侠》漫画的上空」,模型非常准确地理解了空间位置,以及放大镜蕴含的逻辑作用。

GLM-4 All Tools全家桶来了

上面,都还只是常规的单项模型基础能力提升,大会上最让人眼前一亮的,还是GLM-4-All-Tools全家桶。

在以往,我们都需要魔法咒语一样的提示词或者代码,才能调用大模型的能力。无论是回答问题、画一幅画还是使用外部知识源,总觉得LLM还不够聪明。

而现在,得益于GLM模型的强大Agent能力,GLM-4实现了自主根据用户意图,自动理解、规划复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,从而完成更加复杂的任务。

也就是说,GLM全家桶的能力,终于实现了ALL IN ONE!

画图

在AI画图方面,GLM-4 All Tools可以很好地结合上下文语境进行创作。

比如,我们可以先画一只卡通柯基。

随后只要说「它开始跑步了」,GLM-4 All Tools就能理解,我们要的还是这只柯基在往前跑。

告诉GLM-4 All Tools「一只小兔子加入它一起」,它就明白柯基是主角,兔子需要跟在柯基后面,同时保持奔跑。
告诉它「跑得越来越快了」,背景就会虚化。
总之,GLM-4 All Tools对上下文语境的理解非常准确。

代码解释器

同样,GLM-4也内嵌了代码解释器,能够自动调用代码解释器,进行复杂的方程或者微积分求解。
在以下数据集上,GLM-4 All Tools取得了和GPT-4 All Tools相当的性能。
下面这道数学多项式,该怎么求解?
或许可以直接训练一个数学模型,但问题更复杂的时候,LLM就容易出现幻觉。
而GLM-4,则可以通过调用Python解释器,进行复杂计算,自动写出求解代码。
不仅是数学问题,代码解释器还能完成文件处理、数据分析、图表绘制等复杂任务,支持处理Excel、PDF、PPT等格式的文件。
可以让模型自动生成PPT大纲,还能调用代码,生成PPT文件。

网页浏览

靠着All Tools全家桶,GLM-4可以实现更高级的网页浏览。
期间,模型会根据任务自行规划检索任务,自行选择信息源,自行与信息源交互。
比如可以问它:我要参加2023年的CCF开源大会,当地天气是怎样的?
这个问题的难点在于,我们并没有告诉它会议地点,模型自动进行了两次搜索,第一搜到了大会是10月21日在长沙举行,第二次搜到了长沙在10月21日的天气。
可以看到,GLM-4 All Tools的网页浏览准确率,已经超过了GPT-4,令人印象深刻。

Function Call

All Tool还有一个通用能力:根据用户提供的function描述,自动选择所需function并生成参数,以及根据function的返回值生成回复。
这方面的能力,已经跟GPT-4基本持平,在中文理解上,GLM-4 All Tools比GPT-4略强。

多工具自动调用现场实测

在大会现场,GLM-4 All Tools进行了一番怼脸实测。
比如,让GLM-4 All Tools联网搜索「智谱2024 DevDay的宣传语」,然后就此主题画一幅画。
可以看到,大模型自动搜索找到了相关发布页面。
同时,生成的图片也很好地还原了GLM-4的意境。
这幅图描绘了智谱2024 DevDay宣传语中的场景。图中展现了勇敢的⼈站在汹涌的潮头,⾯对远处的⻛暴毫不畏惧。
GLM-4可以识别语义并联网,搜索多个数据源。
它还可以生成一段代码,把生成的数据可视化出来,生成简单的图表。
一句简单的输入,联网搜索、提取、代码解释器、绘图等多项原生能力就随之启动,根本无需手动控制。模型强大的理解、解释能力,也就随之而来。
我们可以让GLM-4搭建一个多项式回归预测模型,预测未来5年的全球GDP发展态势。
这样,就能更直观地看到过去十年和未来五年的发展趋势。
根据从MacroTrends获取的数据,我绘制了2007年⾄2022年全球GDP的折线图。在图表中,我已经将下降的数据点标记为红⾊,以便于识别。您可以查看这张图表,以直观地看到全球GDP的变化情况。
值得一提的是,GLM-4升级后,API调用价格维持0.1元/千tokens不变,继续保持较低水平。

国产「GPTs」全新上线

可以看到,智谱AI针对OpenAI的这种对标,不仅仅是「我有」产品,而是在诸多方面都达到了可比程度。
最令开发者期待的是,国产「GPTs」也来了!
DevDay上,智谱AI上线了定制化个人GLM大模型——GLMs。
现在,无需代码基础,任何用户均可用简单的prompt指令,创建属于自己的GLM模型智能体,从而实现对大模型的便捷开发。
比如,智谱AI这次就给自己的DevDay做了一个GLMs。
只要打开智谱清言,进入智谱DevDay的智能体,就可以提问今天大会的事宜。甚至能直接要到现场PPT的下载地址。
并且,GLMs模型应用商店,也有开发者分成计划。
看得出,智谱AI可定制Agent——GLMs的发布,以及上线的GLM Store,在走和OpenAI一样的路线。
继首届开发者大会上发布定制GPTs之后,OpenAI上周正式推出人们期待已久的GPT Store。
短短2个月的时间,全世界已经诞生了300万个自定义的ChatGPT。网友纷纷表示,这就是AI时代的「APP Store」时刻。
简单来说,GLMs降低了大模型的使用门槛,可以让更多的人参与进来,为AI广泛落地铺平了道路。
相较于调用单纯的大模型,GLMs就像一个Agent,可以通过上传文件,比如私有数据等,让其获得额外的知识。这样,定制化的GLMs就能提升对特定问题回答的准确性,以极高的精度执行任务。
苹果在2008年推出APP Store的最大价值在于,创造了一个新的生态,为第三方开发者带去数百万亿美元的收入。
在AI新时代下,不论是GPT Store,还是GLM Store,都将带领世界开发者走向一条新的LLM商业化道路。
好消息是,GLMs和GLM Store今天就已正式上线!

复杂的模型产业链,一步步做起

众所周知,大模型是一个复杂的产业链。而行业对此的共识是:共同创造,才能产生真正的社会价值。
那么,要做到这一点,首先要让大模型本身的能力足够强。

第一步,模型够强

在这一方面,智谱AI从未停下过自己的脚步。
自2019年成立以来,这家AI初创公司便致力于打造新一代认知智能大模型,专注于做大模型的中国创新。
一年后,智谱AI从0开始研发全新的GLM预训练架构,并在2022年推出了中英双语千亿级超大规模预训练模型GLM-130B。
到了2023年,GLM系列大模型保持每3-4月更新一次的频率,逐渐形成了全面的AIGC产品矩阵。
而这一次,性能足以媲美GPT-4的基座大模型GLM-4,是智谱AI进一步研发能力的体现。
智谱AI CEO张鹏在技术开放日上表示,「GLM-4的推出,标志着国产大模型有能力对标世界人工智能最先进水平」。

模型之后,就是生态

除了模型自身的能力之外,开源社区和学术界的支持也至关重要。
开源的意义在于,联合全球的开发者、研究机构、企业,共同让模型的数据更丰富、模型更优化、应用更全面。
而对于个人开发者和中小企业来说,也能以最低的成本调用模型,不需要花费高昂成本。
在国外,Meta以Llama 1的发布为起点,开辟了开源大模型竞相爆发的新路线。
随着越来越多研究人员的加入,羊驼家族也迎来了大爆发:Alpaca,Vicuna,Llama-Adapter,Lit-Llama等变体相继出现。
几个月后,Llama 2在很大程度上取代了Llama 1,成为功能更强的基础模型,甚至官方还推出了其他的微调版本。
同样,国内的开源引领者智谱AI也早有布局。
2022年,智谱AI率先开源高精度双语千亿模型GLM-130B和ChatGLM-6B。
目前,GLM系列模型在Hugging Face上的下载量已经超过了1100万,在GitHub上累计星标超过5万。而智谱AI也成功跻身全球最受欢迎开源机构第5。
基座大模型GLM-4和GLMs等,会进一步推动GLM的模型生态建设,让智谱AI已经构建起的全模型产品线更加强大。
2024年,智谱对于学术的支持还会继续。1000万元现金和算力资源的大模型科研基金,2023年来已经有三十余所高校参与。
现在,每一个研究者,均有机会参与大模型的研究,还会拥有自己研发的知识产权。
此外,智谱AI还针对开源社区发起了大模型开源基金,为优秀的开发者提供了高达三个「一千」的支持——1000张卡、1000万人民币和1000亿tokens。
同时,智谱AI还重磅升级了面向全球大模型创业者的「Z计划」。
创业基金的总额,达到10亿元!
这项基金,用于支持大模型原始创新,覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等各个方面。

联合上下游,推动产业升级

而在商业领域,智谱AI在2023年里已经积累了1000多家合作伙伴,并与200多家实现了深度共创。
怎么看一个大模型好不好用?最终结果,还是要看有没有真正的落地。
目前,GLM系列模型的能力,已经覆盖了包括金融、咨询、互联网、传统消费产品、智能制造、传媒等诸多领域。
与此同时,智谱AI还将包括国产芯片、不同垂直领域服务集成商等上下游行业合作伙伴团结到一起,共同推动整个产业进步与升级。
可以看到,围绕着GLM系列模型的生态圈,正在加速形成。
智谱AI CEO张鹏表示,「一枝独秀不是春,中国的人工智能事业要繁荣、要发展,需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿,而且有能力为打造繁荣的国产大模型生态贡献自己的力量」。
参考资料:
https://chatglm.cn/main/toolsCenter




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创建Agent41、长篇民国小说《永泰里》第九章 欢迎“友”军(3)超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!GLM-4国产大模型上线 称整体性能逼近GPT-4 降低推理成本维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上晨游---自己哄自己AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3GPT「国产版」GPTs 来了?体验字节跳动的「扣子」后,我发现它比 GPTs 强在这一点说一个有关Open AI的Chat GPT 创投人和我家的小故事重磅!ChatGPT放大招!GPT Store应用商店今天上线!超300万GPTs,内卷之下的赚钱机会!OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-4挤暖和联想怒砸3000w,让国产「降噪耳机」崛起!5级“主动降噪”,电话犹如面聊...百元入!怒砸3000w,让国产「降噪耳机」崛起!5级“主动降噪”,电话犹如面聊...百元入!OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4这个全面对标 OpenAI 的国产大模型,性能已达 90% GPT-4720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级1/10价格穿上国产「始*鸟」,高压水枪滋不透,刀刮不烂……1元=1700000tokens!清华系发布国产Mistral仅2B,老手机都带得动,GitHub一天斩获300+星仅此一场!纽约爱乐中国新年音乐会“龙”重登场!福利折扣码来了!两月超300万GPTs!深扒全球Top 100 GPTs,有哪些财富密码?国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-4国产 GTPs 上线!智谱 AI 推出 GLM-4 全家桶,我们浅试了一下什么叫国产「自研」手机系统?套壳、试水、突围...谁真能摆脱安卓?智能周报|Google发布Gemini;OpenAI推迟发布GPT商店;微软明年发布新版Windows,AI功能大幅增强…清华系2B模型杀出,性能吊打LLaMA-13B,170万tokens仅需1块钱!重磅!2024 US News 全美「本科CS」排名发布!卡梅痛失第一,“黑马校”要火......我们俩2024机械师春季新品发布会:发布首套星闪超级电竞“全家桶”《歌德堡变奏曲1461》清华叉院提出「GenH2R」框架,用百万场景打造基于视觉的通用人机交接策略最新!Google华人杀妻案早有征兆,知情人怒斥Google清华系“宠物群”,事前集体撺掇,事后全部装哑“龙”重登场!全家都能穿的国潮年服,新年氛围感直接爆棚~chat gpt 怎么上不去了? 彻底罢工了Google发布Gemini,暗示GPT-4不是「原生」多模态
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。