百模大战的同质化窘境:百花齐放还是重复造轮子?
头图由AI生成
从百度、阿里等互联网大厂,以及讯飞、360等各赛道头部玩家,大模型产品的界面、功能、使用方式都近乎一致。相似的对话框、测评中相差无几的性能得分、以网页端、APP端为主的使用方式,使得用户有时只能靠“图标”来辨别不同的大模型。
当下,大模型的热潮尚未平息,其能力正在推动互联网产业变革,智东西与业内多位知名从业人士进行了深入交流,业界对于大模型同质化有以下三种看法,首先是认为大模型同质化是产业发展早期的正常阶段,其次为大模型的同质化表现的衡量标准很多,相关因素众多,不能以“同质化”一言以蔽之,第三种观点则坚决认为不会同质化,因为各家落地的主要场景不同。
首先从界面外观来看,相同的地方在于,聊天机器人的主页面大体可以分为三个部分,左侧为历史对话记录和新建对话,右侧上方为对话的具体内容,右侧下方为用户输入窗口。不同的地方在于,大模型产品Logo,也就是聊天机器人头像,以及实际页面中功能按钮的设计。
▲聊天机器人产品Logo(从左至右依次是360智脑、百川大模型、商量、通义千问、文心一言、讯飞星火)
此外,在界面设计上,聊天机器人产品除了输入、输出、重新生成、查看编辑历史对话记录、新建对话这些标准功能外,还有更加个性化的语音输入、语音输出、搜索增强,但具备后续几个功能入口的产品仅为少数。
值得一提的是,因为一些企业将文生图、文生文的产品进行了独立区分,用户还需要通过另一款产品来上传图片。
其次,从大模型的能力来看,根据输入输出形式可以分为文图互生、文文互生、文生音视频等,其中前两类的应用较为广泛,基于此,大模型的实际能力包括内容生成、理解、逻辑推理、代码生成等,虽然不同大模型的能力表述不同,但基本都集中于此。
创新奇智CTO张发恩在和智东西交流时也谈道,目前通用大模型在C端(消费者端)的应用场景偏向于知识问答、知识总结、内容润色、逻辑推理等。而不同厂家的通用大模型能力差异性不大:知识问答方面,实时性内容欠缺;逻辑推理方面准确度并不能被用户完全信任,文本修饰能力没有太大差距。
这也可以从通用中文大模型测评标准的判定基准来看,都是从不同维度考验大模型的文图互生、文文互生能力。如新华社联合北大发布的《人工智能大模型体验报告2.0》中,按照基础能力指数、智商指数、情商指数、工具提效指数四大测评维度进行设计,中文通用大模型综合性评测基准SuperCLUE针对的是语言理解与生成、知识理解与应用、专业能力、环境适应与安全性。
再从评测效果来看,因为各家的评判标准、参考维度不同,因此实际排名效果不尽相同。如新华社报告中综合能力排名第一的为星火大模型,SuperCLUE的8月榜单中排名第一的为百川大模型。这也侧面印证了大模型能力在实际表现中,没有某一个的能力可与其它产品拉开很大差距。
最后从使用方式来看,各家的大模型产品使用载体也多集中于网页端和APP端两种。
综合来看,大模型从界面、能力,到实际效果的具体呈现,都没有一个与其它相比有较大差距。
透过表象看本质,大模型的同质化现象可以归结于以下几大原因:
还是从直观的界面设计说起,不论ChatGPT还是国内聊天机器人,用户点击进去就可以立马上手使用,不需要花费很大的学习成本,并且其和微信等人们日常使用的社交软件近似。潘森斯设计学院的助理教授Kyle Li认为,简单的对话界面更适合于帮助人们熟悉、了解新的、陌生的技术,并且用户可以通过一个界面完成各种工作。
其次从技术路线来看,目前大模型训练的方式都较为集中。2017年,Transformer架构的出现奠定了大模型研究的基础。
Transformer架构包含Encoder和Decoder,又诞生了三大训练路径,包括OpenAI主导的基于Decoder的GPT路线,谷歌AI研究院提出的基于Encoder的BERT路径,以及两者兼具的T5模型。
三种技术路线都有适配的场景,研究早期,参数规模较小时BERT模型的效果优于GPT模型,随着模型的参数规模增大,GPT-3模型的效果更好,并且BERT模型是基于双向编码的预训练模型,在理解上下文意思上表现更好,GPT是基于语言模型的生成效果,更适用于文本生成任务,T5则更适用于参数规模较小的大型语言模型生成任务中。
▲从GPT-1到GPT-4的对比(图源:《GPT-4核心技术分析报告》)
今年3月,新浪微博资深算法专家张俊林曾在中国人民大学高瓴人工智能学院主办的AIGC论坛中分享道,到2019年后,BERT路线基本上就没有什么标志性的新模型出现了,而GPT技术路线趋于繁荣。从BERT往GPT走,模型越来越大,做的事越来越通用。
除此以外,也有企业在探索创新架构,如智谱AI在GPT、BERT、T5之外提出了自己的新模型训练架构,那就是GLM(通用语言模型)路径。
第三大原因是数据。大模型最重要的三大要素,数据、算力、算法,其中训练数据也是造成大模型同质化的一大原因之一。未来智能CEO马啸告诉智东西,OpenAI的胜利本质上还是数据清洗的胜利,因此企业比拼的是“谁清洗的数据精准”。因此,大模型能力的区别很大程度在于“怎么投喂数据”。
大型语言模型的训练数据主要来自公开数据集、企业私有数据集、互联网公开数据等。公开数据集对于各家大型语言模型研发者来说,起点一样。基础大模型可选的数据集类型多以开源为主,手握更高质量行业、私域数据的企业也并不会将其开放给大模型。
清华大学惠妍讲席教授、清华大学电子工程系长聘教授、北京衔远科技创始人周伯文在2023世界人工智能大会期间接受媒体采访时提到,目前通用大模型的训练数据集多来自互联网文本数据。因此,企业拿到的公开数据在一定程度上有很大重复性。
再加上国内中文开源数据集的数量远不及英文,也成为国内大模型实现差异化竞争的一道门槛。不过,值得注意的是,中文开源数据集的构建正在加快。
今年以来,《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》中提到,要整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。
还有复旦大学团队开源中文医疗领域的47万高质量监督微调(SFT)数据集DISC-Med-SFT、华为诺亚方舟实验室开源了第一个亿级中文多模态数据集悟空等。
不过,身处其中的大型语言模型研发者对于同质化的看法也有差别。
一种观点认为大模型同质化是产业发展早期的正常阶段,一种观点认为大模型的同质化表现的衡量标准很多,相关因素众多,不能以“同质化”一言以蔽之,第三种观点则坚决认为不会同质化,因为各家落地的主要场景不同。
不同观点的存在,是站在不同维度上看待大模型的发展。第一种是站在技术演进的角度,第二种从用户使用的需求,第三种从大模型提供者的角色定位来看。
因此,“同质化”应该辩证地看待,不能仅从大模型呈现出的能力下决断,单从用户层面来看,就有数量繁多的分类,如对大模型有较大需求的用户,没有很大需求的用户,对单一功能有需求的用户,对综合功能有需求的用户等。
360集团创始人、董事长兼CEO周鸿祎此前在接受媒体采访时提到,各大互联网公司在C端都有各自的固定场景,例如腾讯在社交,百度在搜索,360在搜索、浏览器、桌面等。除此以外,大模型还会产生很多增量场景。
即便现在关于大模型同质化的论调并不一致,但其所呈现的界面、设计等仍需参与者警醒,在技术探索的路途中想明白下一步该做什么更为关键。
归根结底,大模型走向应用落地时,其产品能力是否契合用户的核心痛点,并且做到好用、可用、易用,这些关键因素的共同作用是其实现差异化竞争的基础。
目前来看,大模型同质化趋势仍然处于较为早期的阶段,且并没有对企业或者产业的发展产生实质性的影响。但在有限的赛道资源内,一窝蜂涌入如此多的参与者,势必会对产品如何打出差异化提出更高的要求。
微信扫码关注该文公众号作者