Redian新闻
>
站上大模型制高点:我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

站上大模型制高点:我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

科技

机器之心报道

作者:泽南

我们即将进入一个 AI 原生的时代,一个人机交互的新时代。

「这是迄今为止最强的文心大模型。它实现了基础模型的全面升级,在理解、生成、逻辑和记忆四大能力上都比文心一言线上版本有了明显提升,综合水平与 GPT-4 相比毫不逊色,」百度创始人、董事长兼 CEO 李彦宏说道。



国内的大模型已经冲到了业界最强水平?10 月 17 日,百度世界大会上文心大模型 4.0 的发布引来了一大波关注。


在昨天的大会现场,百度展示了一段又一段 demo,文心大模型现在能看懂你的言外之意,比如问它一个问题:「我想回承德买房,能用公积金贷款吗?手续怎么办,我在北京工作。」



一段完全口语化的表达,前后乱序,没有明确表述,但 AI 也能理解说话人的潜台词:公积金是北京的,户口可能在承德。文心一言理解上下文之后准确针对问题给出了回答。


当然还有先进的多模态方向:给文心大模型一个新车型的图片,再加上几句话的提示(Prompt),它就可以很快生成完整的企划文案图片,并把素材结合成海报。再提示几下,文心就能结合官网信息和已有内容生成一段宣传视频,其中还有数字人在进行讲解。


从零开始到输出海报和视频,整个过程不到三分钟。


「人们常说不写作业母慈子孝,一写作业鸡飞狗跳。文心一言能不能帮助家长解决辅导功课的问题?」李彦宏说道。


给出一道数学题,文心的解答过程非常详细。AI 还能够进一步解释这个问题中涉及到的各个知识点。



衡量 AI 智能程度的另一个指标在于长期记忆能力,如果大模型生成的内容前后逻辑不一致,那就不存在可用性了。在现场,李彦宏让文心一言生成一部武侠小说的大纲,再在其中细化情节,加入几个人物,改变冲突的戏剧要素…… 问题来了,经历了多轮对话,它还记得自己最开始给女主角设定的特殊能力吗?



完全没有问题。


面向全社会开放才一个多月,文心大模型的综合水平看来又有了大幅进化,不过在主题演讲上的那些毕竟是「命题作文」,真正用起来会不会是一回事呢?


其实想要用上并不难:昨天大会的一开场,百度就宣布文心大模型 4.0 开启邀请测试,现场观众都有了测试权限,在网站和 APP 上都可以体验。我们则是提前获得了评测资格,尝试了一下新版本。


文心大模型 4.0 正面对比 GPT-4


在文心一言的网站上,现在已经出现了文心大模型 4.0 的标签,表面看起来和 3.5 版没有太大区别:



在这里我们要引入一点前置知识:上个版本文心大模型 3.5 已经有了插件(现有 8 种)、多模态理解、生成等能力,通过知识点增强技术实现了对世界知识的熟练掌握。因此,既然说 4.0 版是「迄今为止最强大模型」,我们就不能再用以前过于简单的问题来考验它了。


先看理解能力,这道「中文十级题」目测连网友都会翻车,文心大模型 4.0 的回答简洁明了:



换业界标杆 GPT-4 来回答,它理解并解释了其中幽默的意味,但表示无法确定小明最后买的是几等座:



下面这段话是在一档直播节目上出现的,那时人们评价道:全中国没人听得懂白岩松在说什么。



两个大模型都认为说话人想表达的是:人们都喜爱足球这项运动,不应该因为一小部分人的不喜欢而影响到这种喜爱。不过作为人类,还是得说一句 AI 没有理解「想说声喜爱很难」这种感情。


看起来理解问题的水准上,两种模型水平相近,文心大模型在一小部分问题上有点优势。


再看逻辑推理能力,输入一个高考试卷中的物理选择题,文心大模型 4.0 和 GPT-4 都给出了正确的回答:



看起来文心能给出的答案更详细一些,另外还显示了几个进一步解释概念的引导选项,似乎它对做题进行了专门的优化?


我们继续问了很多高考的数学题目,结果各有对错,也有些是都答不上来的。总体来看文心 4.0 和 GPT-4 的水平相近。


还有多模态生成,我们直接用同样的指令让两个大模型生成一段视频,文心一言调用「一镜留影」插件,直接输出了结果:


GPT-4 则是调用 CapCut(字节的剪映)插件生成视频内容。需要注意的是,它提示要想生成视频,就必须要与你进行多轮对话,逐步确定好视频脚本(英文的)、屏幕比例等等:



在不断的测试中我们还能看出,如果你 Prompt 得越仔细,说 AI 话的格式越规整,GPT-4 的表现就相对越好,不过最终也并没有产生决定性的差距。调戏大模型,现在已经越来越像一门学问了。


为了测试四大能力中的长期记忆能力,我们让文心大模型 4.0 阅读一篇贴吧的帖子:在崩铁更新了 1.4 版本之后,有人从自己专业的角度对剧情进行了一长段吐槽,那么这评价合理吗?



文心认为游戏剧情不需要完全按照现实世界的逻辑来展开。我不是很认同,我就是想要符合现实逻辑的剧情:



能不能再跌宕起伏一点?



再尝试替换其中的一个人物:



看起来,文心大模型 4.0 可以在保持原始知识的情况下,与人在不断对话的过程中生成、提炼出你想要的内容。


还有一些我们经常会用得到的功能。在 ChatGPT 出现后,越来越多的人开始尝试使用大模型帮忙来润色论文,据说 AI 写论文看起来很有功底,一般人还真比不上。我们用一段著名的发言试一下:



文心大模型 4.0 把它改写成了这样:



与之相对的是,GPT-4 更多地使用了原文的信息:



不过在更多测试中,GPT-4 生成的内容偶尔会出现夹杂英文的现象。


另外,文心一言目前为保证获取实时信息,默认接入了百度搜索插件,也在理解网络新趋势的时候能帮得上忙。比如,我们最近都在反思自己有没有努力工作:



相比之下,GPT-4 给出了似乎是基于大模型幻觉的回答。



如果多点一步选择使用 Bing 联网版的 GPT-4 则可以得到正确回复,不过再次出现了语言问题,偶尔会获得全英文的回答。


看起来,文心大模型 4.0 在四大核心能力上的提升的确明显,和 GPT-4 比毫不逊色的说法也并不是夸张,特别是在中文领域里,水平是经得起考验的。


核心技术揭秘


能做得到业内领先,百度实现了哪些技术进步?在昨天会上,百度 CTO 王海峰解读了文心大模型 4.0 的关键技术和最新进展。


 

「相比 3.5 版本,文心大模型 4.0 的理解、生成、逻辑、记忆四大能力都有显著提升,」王海峰说道。「其中理解和生成能力的提升幅度相近。而逻辑和记忆能力的提升则更大。逻辑的提升幅度达到理解的近三倍,记忆的提升幅度也达到了理解的两倍多。」这些提升都会给用户带来帮助。


这些改进的速度很快 —— 其实文心大模型 4.0 在 9 月初就达到了上线标准,开始了小流量测试。过去的一个多月里经过不断调优,它的生成效果又提升了近 30%。


基础模型能力的增长体现在应用上,就转化成了生产效率的提升。比如在各家大厂都说在用的智能代码助手上,百度基于文心大模型的 Comate 在内部应用效果不错,整体的代码采纳率现在是 40%,高频用户的代码采纳率达到 60%。现在百度每天新增的代码中,有 20% 是由大模型生成的,这个比例还在不断升高。


这些提升又是靠什么做到的?总的来说,百度基于高效率算力、自研框架、更好的数据处理机制,再结合算法与调优,这才训练出了规模更大、效果更好的文心大模型 4.0。


今年 3 月正式发布的文心一言,其背后基于文心大模型 3.0,这是一个有知识增强的大语言模型,它从数万亿数据和数千亿知识中融合学习,又使用了有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的优势。


5 月份发布的文心大模型 3.5 则在基础模型、精调技术、知识点增强、逻辑推理、插件机制等方面进行了改进,取得了生成效果和效率的提升。


文心大模型 4.0 以它们为基础,继续在多个关键技术向上突破。



具体来说,百度:


  • 在万卡算力上基于飞桨平台,通过集群基础设施和调度系统、飞桨框架的软硬协同优化,支持了大模型的稳定高效训练。
  • 通过建设多维数据体系,形成了从数据挖掘、分析、合成、标注到评估闭环,充分提高数据的利用效率,大幅提升模型效果。
  • 基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐,保证了模型能够更好地与人类的判断和选择对齐。
  • 利用可再生训练技术通过增量式的参数调优,有效节省了训练资源和时间,加快了模型迭代速度。


基于这一系列的提升,自三月以来文心大模型的训练效率已累计提升 3.6 倍;训练稳定性方面,周均的训练有效率已超过 98%。


另外在更高层面上还有一些改进。


文心大模型 4.0 实现了输入和输出两阶段的知识点增强,一方面对用户输入的问题进行理解,拆解出所需的知识点,然后在搜索引擎、知识图谱、数据库中查找准确知识,再把这些知识组装进 Prompt 送入大模型,提升了准确率和效率。另一方面又对大模型的输出进行「反思」,从生成结果中拆解出知识点,再用搜索引擎、知识图谱、数据库,以及大模型本身进行确认,对有差错的内容进行修正。



给大模型再加一层自动化的 AutoGPT 被认为是大模型的重要发展方向,百度同样构建了文心的智能体机制。人的认知系统可划分为两个部分:系统 1,反应很快,但容易出错;系统 2,反应慢,但更理性、更准确。在基础大模型之上百度进一步研制了系统 2,包括理解、规划、反思和进化,能够做到可靠执行,自我进化,并一定程度上将思考过程白盒化,从而让机器像人一样思考和行动,自主的完成复杂任务,并能够在环境中持续学习实现自主进化。


接下来,文心一言团队还会继续加班加点,持续提升大模型的能力。


目前,文心大模型的用户量增长很快。王海峰公布了一组数字:自 8 月 31 日文心一言面向全社会开放至今,仅用 40 多天的时间,文心一言的用户规模已经达到 4500 万,同时覆盖了 5.4 万开发者,4300 个场景,825 个应用,与之匹配的插件也超过了 500 个。


百度:做国内第一个 AI 原生化公司


当然,前面展示的文心一言只是生成式 AI 应用的一小部分。


大模型理解、生成、逻辑、记忆的四大核心能力突破,是催生 AI 原生应用的必要条件,带来了全新的想象和创新空间。


李彦宏表示,百度要做第一个把所有产品进行重构的公司。在世界大会上,百度发布了多款 AI 原生的应用,来自搜索、地图、文库、网盘等业务线的十余个应用产品全部亮相。


 

百度搜索是大模型落地的第一步,「新搜索」是全新的 AI 互动式搜索,它实现了三大重要提升:极致满足、推荐激发、多轮交互。当你在搜索框里输入问题,它不再是单纯的输出链接,而是生成完整的答案,并附带易于理解的图表。



大模型加持的生产力工具也在变得更聪明,分析师现在可以通过大模型工具可以把十几天才能完成的任务缩短到几分钟来完成,参与在线会议的人可以从冗长的对话内容里快速总结出重要信息,出差时 AI 也会自动帮你安排行程:


在我们每天都会用的百度地图上,最新上线的 V19 版本基于文心大模型进行了重构,其中的「AI 向导」具备多轮自然语言交互能力,用说话的方式就能唤醒菜单里被折叠的上千种能力,也可以理解人们不是具体地点的需求,并找到最优解,当好一个向导。


 

如果把眼光放远到更多行业,百度正在大力推动数字技术与实体经济的深度融合,其大模型技术已应用在制造、能源、电力、化工、交通等实体产业中。在千帆大模型平台上,现在已有超过 1.7 万企业开发了产业模型和解决方案,覆盖了各行业的近 500 个场景。


最近一段时间,AI 领域技术的军备竞赛让我们对技术突破越来越熟视无睹。有时候甚至会忘记距离 ChatGPT 正式发布,现在才过去十个多月的时间。在这段时间里,通用的生成式 AI 已经从遥不可及的愿景,变成了人人在玩的聊天机器人,又蜕变成为了众多行业效率提升的基础。


而在未来,不论时间的长短,AI 原生的智能化注定要改变所有人的生活和工作方式。


可喜的是,在这个过程中,国内公司已经拿到了入场门票。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
硬刚GPT-4!百度文心大模型4.0开启邀测,10余款AI原生应用炸场,国家跳水队站台海外华人刘同学早鸟报|文心大模型4.0正式发布;华为回应“花瓣支付”更名;东方甄选正式宣布推出付费会员业务...抢占折叠屏手机市场下一个制高点,华为怎么做?百度高管解读财报:智能云单季营收45亿 继续投资文心大模型百度发布文心大模型4.0,李彦宏:综合水平与GPT4相比已经毫不逊色中方将出席英国AI安全峰会;文心一言推出会员模式;vivo发布自研蓝心大模型丨AIGC大事日报文心大模型4.0发布!李彦宏:相比GPT-4毫不逊色美媒:中美正争夺这个“制高点”李彦宏万字演讲:文心大模型4.0相较GPT4已经毫不逊色皮带哥的皮带断了,裤子落下国内金价站上历史高点 内外盘走势背离 高溢价因何而来?度假加勒比 (五) 聖基茨(Kitts)《高阳台 - 秋实》谷歌新模型的算力已是GPT-4的5倍,要大力出奇迹反超OpenAI了?40句“想你”的文案,送给不能见面的朋友文心大模型商业化领跑,百度在自我颠覆中重构生长力字节“开盒”OpenAI所有大模型,揭秘GPT-3到GPT-4进化路径!把李沐都炸出来了文心大模型 4.0 发布!宣称对标 GPT 4.0手机大模型爆发:vivo 发布自研蓝心大模型,参数追赶 GPT-3Nature重磅爆料!知名学者连发顶刊技术揭露,打破百年僵局!百度李彦宏:文心大模型4.0,不逊色GPT-4为什么5%的GDP增长,经济还是很痛苦?李彦宏:文心大模型4.0版本年底发布百度文心大模型4.0正式发布并开启邀测;YouTube推出广告套餐,利用AI投放广告丨AIGC日报“可怕”的14岁现象,男孩女孩都会有:父母要心大、心大、再心大!从文心大模型4.0,到十余款AI原生应用,百度再次抢先一步百度文心大模型4.0正加紧训练,将10月中旬发布12项性能位居第一,中国最接近GPT-4的大模型来了!现已全面开放服务!李彦宏:文心大模型4.0与GPT-4相比毫不逊色|首席资讯日报英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报这些万亿级赛道或将受益!文心大模型4.0亮相,李彦宏:毫不逊色于GPT-4GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法长飞光纤:抢占全球光通信产业制高点一家卓越的灯塔企业,需要占领五个制高点
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。