行业观察 | 百模大战当前,企业如何选择
大模型将在上一代人工智能的基础上再次刷新行业迭代变革的边界和深度,大模型之间的比拼将超越五花八门的定位宣传和肌肉展示,最终落地到朴实的效果检测
文 | 刘以秦
编辑 | 谢丽容
AI大模型的商业落地比想象中的要快不少。
引爆这一轮AI大模型的美国创业公司OpenAI发布GPT4时,就在其合作伙伴微软落地了相关的应用,包括Office全家桶中的智能助手,此外,ChatGPT开放了第三方插件,可以与超过5000个应用交互,用户还可以让GPT生产新的插件,实现个性化功能。另一大人工智能巨头谷歌不甘其后,5月11日,谷歌在I/O开发者大会上推出新一代大模型,对180个国家和地区开放聊天机器人Bard,发布对标Office全家桶的Workspace,在安卓系统中也增加了相关功能。有一些评测预测,谷歌的实力不弱于微软。
大洋彼岸的另一边,中国的AI大模型团战局势也开始清晰,先发者已经着手将大模型商业化,走向应用。5月6日,科大讯飞发布星火大模型,同时发布了教育、办公、汽车、数字员工四大行业应用成果。5月9日,百度智能云在文心大模型技术交流会上,介绍了大模型在产品技术、场景研发、生态建设等领域的新进展。国内大厂中最早发布大语言模型的百度公司进展较快,目前还在内测阶段的百度文心千帆大模型平台上,不仅支持文心一言大模型及第三方大模型服务,还有大模型开发和应用的整套工具。
百度集团副总裁侯震宇5月9日在接受媒体采访时透露,文心一言发布后至今已完成了4次技术升级,大模型推理成本降为原来的十分之一。“接下来,在模型的使用、微调、再训练方面的成本,还会持续下降。”
百度是国内最早推出大模型的大厂。2021年6月,百度智能云开始规划全新的高性能GPU集群的建设,联合英伟达(NVIDIA)共同完成了可以容纳万卡以上规模的IB(无限带宽)网络架构设计,集群中节点间的每张GPU卡都通过IB网络连接,并在2022年4月将集群建设完成,提供单集群EFLOPS(百亿亿次/秒)级别的算力。
今年3月,基于该高性能集群,百度推出大语言模型文心一言,并不断迭代出新的能力。
此后不到两个月的时间内,阿里巴巴、腾讯、华为、字节跳动等大厂也已经推出大模型相关产品。AI公司们也都将重心转向大模型,一些新兴的AI公司崭露头角,估值飙升。
在大模型热潮席卷下,中国已经出现了“百模大战”盛况。截至目前,今年中国已经有超过30个大模型产品发布,还有不少正在研发过程中。
过去2个月,中国的AI大模型领域,从比拼参数值,到比较测试集分数,再到探讨产业落地,在短时间内走完了过去AI领域几年的路。这是因为大模型让AI技术更易用,过去,用AI解决某个问题时,需要单独针对场景训练一个模型,而大模型时代,一个模型可以应对所有问题,个人用户可以通过网站使用,企业用户部署接口即可。
第三方市场研究机构MarketsandMarkets报告显示,全球生成式AI市场规模预计将从2023年的113亿美元增长到2028年的518亿美元,预测期内复合年增长率为35.6%。
一家金融机构CTO在今年3月申请使用了多个大模型的接口,包括ChatGPT和国内的多款产品。他比较发现,ChatGPT的使用体验最好,但是由于要调用海外服务器,相对不太稳定,因此还需要国内的产品配合使用。
也就是说,事情发展到现在,人们已经不再过分关注大模型的参数体量,更受关注的话题是:哪个更好用?
目前,企业主要分为四类:研发基础大模型;研发垂直领域大模型;接入已经开放使用的大模型,以及观望并思考应该如何使用大模型。
如果现在才开始研发基础大模型,成本极高。由于行业火热,算力价格不断攀升,相关人才的身价也水涨船高。因此,更多企业会选择使用现有的大模型产品。但由于大模型真正走入公众视野仅半年时间,企业应用还在探索阶段。
不过,大多数人的共识是,AI大模型是代表先进生产力的新工具,率先掌握并应用这一能力的,将获得更大的竞争优势。
什么是好的大模型?
人工智能技术发展的这十年,始终在和落地场景较劲,技术再好,没有场景也枉然。
百度集团执行副总裁、百度智能云事业群总裁沈抖曾打过这么一个比方:大模型出现前的AI像是氧气,本身很有价值,但自己不会燃烧,必须找到可燃物才能把价值给发挥出来。这里的“可燃物”,指的是落地场景。
企业用户在选择大模型产品时,问的第一个问题就是“哪个最好?我要怎么挑?”
大模型的评价标准目前尚未有明确定论,理论上来说,参数值大,意味着能力强,但这不代表实际。在实际操作中,目前比较流行的评价是通过公开的评测集来打分,或是通过各项能力综合评价。但这种方式也有一个问题——目前公开的测评结果都没有公布相应的测评说明和标准,不具备权威性。最实在的方法是用户试用体验,根据自己的感受来做选择。
侯震宇的看法是,无论是哪种方式,最适合的评价标准是能否真的解决问题,而不是拿一些为难的问题来检验。
文心一言发布之后,和百度接触的企业不少。在和企业用户接触的过程中,侯震宇发现,一开始大家都异常兴奋,似乎大模型可以解决一切问题,企业也都非常重视,来交流的都是CEO级别。
当大家对大模型有了基础认知后,讨论变得严肃,“每家都说自己的大模型最好,但是说自己好是没用的,只看C端的使用效果也不是完整的。”
现在再来交流大模型的,大多是技术负责人或是业务负责人,侯震宇认为,这说明大家真的想要用起来。
为了验证文心千帆的服务能力,百度先在内部应用。包括搜索、新闻推荐、地图、视频和小度灯,都已经完成了大规模测试。初步测试结果让文心千帆团队振奋。侯震宇透露,在百度地图中,信息搜索满意度提升了6%,小度的意图理解准确率也提高了3.1%。
一款ToB的产品,最好的评价标准就是有多少用户愿意付费。但以目前的行业普及度,还很难说哪个大模型的商业化能力更强。
3月16日,百度发布文心一言,百度称,已经有15万家企业申请试用,截至目前,已有超过300家生态伙伴参与文心一言内测,在400多个企业内部场景取得测试成效。
业内讨论度较高的大模型还有初创公司Minimax和智谱AI,两家公司分别成立于2021年和2019年。目前Minimax估值已超过10亿美元,已经开放接口。智谱AI的大模型在今年3月就已开源。
办公场景是大模型最直接的应用场景。对标微软Office的金山办公计划推出WPS AI,类似基于ChatGPT技术的微软Copilot,此前是与Minimax合作,5月9日,金山办公助理总裁田然提到,已经与百度文心一言开展联合测试,未来会进一步推动大模型在办公领域的应用和快速落地。
目前看来,不止是大模型们在优化迭代,企业用户们也在摸索尝试。虽然已发布的大模型数量不少,但真正开放测试的并不多,或是号称开放测试但几乎申请不到。多位企业技术负责人提到,现在只能在少数大模型中做选择,即使已经用上了,如果出现更好的版本,会迅速换掉。
如何降低成本?
除了适合自己,企业选择大模型时,另一个重要的考量就是成本。
如果只是用基础大模型,简单部署即可。但一些专业领域的用户还需要更专业的垂直大模型。大模型的特点是通过海量数据的训练,基础知识相对完备,如果只用于日常交流或生成内容,大模型出错的影响不大。但是在一些专业性强的领域,基础大模型就不够用了。例如医疗,出现一个小错误后果不堪设想。
因此,需要在基础大模型之上,用更多专业化的数据再次训练。
AI大模型的训练过程非常“奢侈”,是用巨大算力、数据,长期“烧钱”才能成型,仅电费就是天文数字。且在之后的使用中,也需要不断调用算力。同时,大模型训练门槛高,涉及到很多细节的操作,如果没有相关经验,成本会更高。
百度智能云计算产品解决方案和运营部总经理宋飞总结,降低大模型训练成本,同时提升效率,有四个重点。
其一,构建高性能、高性价比的智算集群。包括芯片选型,服务器配置,集群网络构建等;
其二,训练、推理过程优化,更好地发挥集群效能;
其三,形成高性价比的解决方案;
第四是易用性。
另外,目前千亿参数以上的大模型训练一次需要1个月左右,过程中很容易出错,而大多数企业并没有相关的实践经验,因此需要稳定且能在出错后快速恢复的一站式平台。
宋飞的观点是,大模型训练是个系统工程,不少企业认为做算力和数据的堆积就能做出大模型,但实际效果并不好。去年,百度推出全栈自研的AI基础设施“AI大底座”,包括芯片层、框架层、模型层,分别对应昆仑芯、飞桨、文心大模型,框架层和模型层之间的协同作用,能够帮助企业用户降本增效。
百度智能云AI与大数据平台总经理忻舟在和客户交流过程中发现,不少客户对于模型训练的需求并不高频,这类低频需求如果专门为此去采购大量资源、机器并不划算。
忻舟说,这类客户其实适合租赁服务。
千行百业需求万千,为了应对不同的需求,百度提供多种交付方式。首先是公有云服务,包含大模型所特有的推理、微调及托管服务。此外,百度也提供私有化交付,对于一些不愿意部署公有云的企业用户,可以把所有的设备做本地化部署。
大模型行业逐步成熟后,算力成本、数据成本都会随之下降。今年3月OpenAI推出的新版ChatGPT的收费标准比之前下降了90%。接下来,越来越多的企业用户可以用上大模型的能力,不需要再单独花钱买算力,标注数据,训练等,大模型的普及度将进一步提高。
百度集团副总裁侯震宇
大模型怎么用?
评估大模型的潜力有诸多侧面,其中产业化潜力是大模型价值最受期待的一面。
有了大模型的相关工具,企业用户还有一个重要的问题,那就是应该如何使用才能达到更好的成果。
例如电商领域有大量的客服工作。假设一位客服人员一天能响应约300个客服需求,需要打6万字。对于企业来说,一天的人工成本是100元-200元。AI大模型的基础功能就是对话,经过微调后可用于客服工作。百度称,如果用文心大模型做客服,完成同样6万字左右的工作,成本是1元钱。
还是在电商领域,另一个主要的工作是直播带货。大模型也能帮助企业做出不同风格的直播口播内容,再结合数字人技术,用AI主播可以做到24小时直播,节省了主播和相关内容团队的成本。
在服务各级政府各委办局的政务场景下,政务服务助手可以帮助用户更快获得几乎所有相关政策的核心信息。比如关于休假的政策、《劳动法》相关政策等。同时基于这些内容的自动提取、分析、摘要,生成的表单可以结合起来,在用户交互的过程中,快速的获得和生成出需要的信息、关联资料,不需要再去看海量的政策文档。
在营销方面,企业的营销内容通常不止有文字,还需要有图片和视频。擅长写文案的员工不一定擅长做视频,过去可能需要一个团队协作完成所有工作。大模型的多模态特点刚好能满足这一需求,且还能根据不同平台、渠道和用户画像,做出不同风格的营销内容。
大模型究竟能发挥怎样的新价值,产业界还在摸索,甚至有许多新的能力都是用户在使用过程中发现的。侯震宇说,目前已经有用户,通过大模型来辅助完成工业设计。
科技属性较强的企业,能够更快学习并使用大模型。前述金融机构的CTO提到,他们在几个月前,就已经开始用大模型做行业研究,撰写相关的合同、文件,制定相应的投资方案等。随后他们又把大模型应用于公司的日常管理中,包括做会议资料,甚至选择办公设备。
而对于一些不那么了解大模型的企业用户,就需要用更“重”的方式来普及。侯震宇提到,百度的工作人员会和用户做深度沟通,了解用户的业务构成和可能的需求、痛点,再提供相应的大模型解决方案。
过去,AI落地产业是一件非常碎片化的事。AI技术提供方要根据客户特定的场景,先收集、整理、标注数据,再单独训练一个适用的模型,且难以复制。仅仅是一个客户可能就有大量的场景需要做。这也导致了过去AI落地难。
但是大模型的出现,一定程度上缓解了这个问题。有了通用的预训练大模型,在不同的场景中,只需要少量的数据,用较低的门槛,来解决相应的需求。
“虽然现在我们还要花一些时间去给客户讲大模型,但客户一旦真正用起来以后,效率就会高很多。”侯震宇说。
大模型将是全球科技圈未来十年核心关键词,AI产业能不能迎来第二春,取决于大模型技术的成熟度和落地商用情况。可以预见是,大模型将在上一代人工智能的基础上再一次刷新行业迭代变革的边界和深度,大模型创业带来的众多机会,将带动数字化经济更进一步,有机会在全球范围内掀起一股产业重塑的浪潮。
回到AI大模型,不同类型的大模型之间最终的比拼将超越五花八门的定位宣传和肌肉展示,最终落地到朴实的效果检测:你足够好用吗?你能帮到我什么?
微信扫码关注该文公众号作者