“不作诗,只做事”的盘古大模型怎么为文娱行业赋能?
首发于微信号 酷玩实验室
微信ID:coollabs
就在昨天(7月28日),全世界最大的数字娱乐展会,ChinaJoy2023 在上海浦东开展。作为科技博主的我,每年去看cospaly,不,是去看新游戏以及娱乐产业最新的技术。要说今年CJ上什么技术最火,肯定是 AIGC(AI生成式内容)!
从逆水寒的AI NPC到 AI生成游戏概念图,AIGC已经变为数字娱乐产业中最重要的关键词。在今年的会场外,CJ专门召开了AIGC大会,会场内,各个展商也抓紧将AI部署到自己的产品中:中手游的《仙剑世界》引入GPT,游戏里的NPC对话将变得更加真实和自然;网易更是把AIGC开放给更广的玩家,在年轻人中爆火的《蛋仔派对》,玩家不必使用专业工具,在AIGC的帮助下,简单几步就可开发出新玩法。
所有的这一切都在显示,AIGC已经成为所有数字娱乐开发厂家的共识,而AIGC的好坏与否,和躲在背后的大模型摆脱不了关系。目前国产最强大模型当中,华为云“盘古”肯定是T0级别。
在CJ的AIGC大会举办的同一时间同一地点,华为云数字文娱AI创新峰会举办,首次展示了盘古大模型3.0面向数字文娱产业的能力。
盘古大模型具体会对文娱产业带来多么深远的影响,或许仍待进一步观察。不过,盘古大模型在气象领域的成果,可以作为直观的参考。
各位可能对盘古气象大模型发表在《Nature》杂志的研究成果有印象,它在业内第一个做到了,用AI模型预测天气的精度超越了传统的数值预报方法,超过了之前全球最强的欧洲气象中心的 IFS 系统。
全球每年会形成大约80个台风,其中平均会有7个台风经过我国。麻烦的是,用原来的预报方法,虽然我们可以提早几天看到台风路径,但因为路径往往是动态的,可能最终只能提前一天甚至几个小时才知道具体登陆位置…这就造成了防灾减灾工作的两难处境:提前投入太大结果台风不来,不合适;投入太小,台风可能就会给我们迎头痛击。每年台风给我国造成直接经济损失超过100亿元,我记得高中有个暑假我在家里跟同学玩魔兽世界下副本,有个台州的同学突然说他要下线了,我们正要骂,他补了一句“我家屋顶没了”。。。
而盘古大模型做到了对全球气象预测10秒出结果,预测速度提升了10000倍,并且更加精准。
今年上半年,盘古跟国家气象局合作预测台风玛娃的路径,提前十天就准确预测了它的路径,这个时间间隔就足够大家做出充分的准备了,比如把屋顶加固一下。
可以看到这里的蓝线是传统预测方法预测的台风路径,红线是盘古的预测,黑线是台风的实际走向,很显然,盘古大模型的预测精度显著超过了传统方法。
具体到文娱领域,盘古大模型基于同样的模型底座,有同样的惊艳表现。
熟悉我们的朋友都知道,酷玩实验室在做一个微信电商,做电商很大的一块工作就是拍图。
比如我们要上新一批服装款式,就需要根据款式对应的性别、年龄段,约模特过来,安排一个影棚,架好灯光布置好背景,然后不停地穿拍脱穿拍脱,忙活一天下来终于拍完了20套衣服,拍完之后还要P,最后才能安排上架。
这一套流程一来是成本很高,二来是很累效率提不上来,它经常电商上架最慢的一个环节。
现在我们在美图公司旗下的“美图设计室”官网,找到一个最新推出的创新功能——AI模特试衣。
用上这个功能之后,整个拍图流程就会变成这样:
第一步:我们找个假人模特,批量地先把衣服拍了,这步不用人配合就会很快;
第二步:到这个网站上,可以一键生成几个模特,把衣服给她们穿上去;
第三步:生成照片,大功告成。
这么高效又惊艳的功能,是由华为云盘古大模型与美图视觉大模型MiracleVision共同研发的最新成果。在盘古大模型的加持下,这个衣服不是生硬地往人身上一贴,而是从光影效果到材质细节到模特的动作都配合得很好,可以媲美高质量的实拍(特别是你一般找不到那么好看的模特)。
这样一来原本一两天的工作,半个小时之内就可以搞定,这就是生成式AI在文创领域带来的指数级效率提升。
那这一切是如何做到的呢?
因为一旦AI要真的应用于产业,就一定会面临几个绕不开的问题。文娱产业也是如此。
首先,行业应用需要的是专业的知识而不是泛泛的知识。
比如理论上构建游戏的叙事、世界观,和游戏里面的人物的AI自主对话,都可以说是NLP自然语言生成。但一边背后的知识是游戏、动漫、影视作品的背景设定集,一边背后的知识是角色的人设和语言风格,可以说完全是两回事。
二来,行业应用需要AI表现出超强的稳定性和可靠性。
比如说你用AI文生图功能去制作游戏的人物原画,那么同一个游戏里面,原画的风格需要保持一致,同一个人物的不同造型,脸和关键特征需要保持一致,甚至不同人物原话里面,一些游戏架空世界的统一设置也需要保持一致。
再比如,你开一个数字人直播卖货,别的闲聊气氛可以不论,但关于货品的介绍信息必须得是准确的,不然你的数字人在那儿扯淡一波,第二天工商局的罚单来了,一个月白做了。
第三点也非常重要,每个行业都会有自己的专业软件和工作流程,新的AI应用需要无缝对接到专业软件的数据,嵌入到原本的工作流程当中去。
比如说我们要用AI去做大型连锁品牌的运营数据分析,那你必须生成数据库标准的SQL代码吧?你得能访问原本的数据库吧?你得能生成运营人员看得懂的图表吧?特别是不同层级的员工肯定有不同的数据访问权限,你得能分级处理加密数据吧?
第四点当然是,在行业应用领域,各家数据都是他们自己的商业数据,他们需要保密、合规。
这就是用AI来做处理真正商业问题时困难的地方。很多AI大模型只能“作诗”而不能“做事”,归根结底就是他们搞不定这四个点。
实践出真知,积累足够经验和行业知识,才能够去推进AI的行业应用。
华为云作为国内头部的云服务厂商,深入行业领域耕耘多年,在AI领域已经有超过1000个项目。
华为云盘古大模型是怎么解决这些问题的呢?首先,他们做了一个5+N+X的分层架构。具体到文娱领域,L0层的多模态大模型,提供了图像编辑、图像拓展、以文生图、以图生图、文生3D、文生视频、图生3D等基础功能。L1层满足动漫、游戏、影音等等垂直领域的综合需求。而L2层就对应到生成比方说像素游戏,艺术家风格的画作、电商模特这些功能场景。
如何理解所谓的L0、L1、L2分层架构呢?这里不妨引用华为轮值董事长胡厚昆曾经在世界人工智能大会上的形象阐述:
L0层对标的是通用大模型,华为云称之为基础大模型,可理解为读万卷书,就是要做好海量的基础知识的学习。这一层之上,华为云还打造了L1层行业模型和L2层场景模型,叫做行万里路。从读万卷书到行万里路还有很多的挑战要克服,很关键的一点就是要把各行各业的知识与大模型进行充分的匹配和融合,华为正在和各个行业的伙伴一起进行努力。
其中盘古的L1和L2层模型,是基于L0层模型已经学习了上百TB文本,数十亿张图像的基础上,再投喂5000多万条题库,辅以行业专家的监督学习反馈,打通十多种行业工具,进行完善的数据分层,精调出来的。
比如说你们公司想做一款数字人,当然你可以基于L0层的文生图、文生视频等多模态能力,自己去搭建一个数字人生产线,再去生成数字人,但这个技术门槛会比较高。比较可行的选项是,直接在L1层的数字人大模型上进行微调,轻松构建L2层的数字人AI生成应用;甚至直接使用别人基于L2层场景模型开发好的数字人生成应用,只需要输入自己个性化的声音、动作、表情,生成专属的数字人。华为云盘古大模型可以做到基于你输入的5分钟历史视频,经过1个小时的训练,生成专属于你的个性化数字人。
比如游戏公司,会对自身角色原画的风格有统一的要求,做会展的公司,也会对活动主题物料风格有统一的要求,而且很多时候这种风格,不是市面上流行的风格,而是我们公司主创自己的风格。这时候用盘古多模态大模型,通过在模型精调工具中,投喂已有的风格化的图片,对模型进行二次训练,就可以灵活地构建自己专属的生成式AI工具。
今年上半年,全球新发布的大模型超过400个,中国就有超过80个。当然我相信所有的大模型,最终的愿景都是实现所谓AGI通用人工智能,也就是像钢铁侠的AI助手贾维斯一样,一个模型解决所有的问题。
但事实是,谁能更早的用起来,就决定了谁的产业能更快的借助这一波AI技术革命加速,也决定了谁的AI能被更专业的行业数据所训练,变得更强。
而其中最为关键的,当然还有对底层技术的自主掌控。
因为众所周知的原因,华为云没法使用目前市面上那套从芯片到云服务到开发框架的最成熟的AI基础设施,但华为全流程搞了一套自己的AI生态。
昇腾AI芯片,对标英伟达通用GPU系列;
MindSpore开发框架,对应到谷歌的TensorFlow和META的Pytorch;
一站式AI开发平台ModelArts配合华为云,对标谷歌云和微软的Azure;
这些是大面儿上的,细节来说,这套生态还包含AI数据采集、标注、清洗、管理工具,模型训练workflow,提示词Prompts优化工具,内容合规审核等等工具。
这套系统的复杂性我很难用言语来形容。
举个最简单的例子,为了支撑这套系统,华为云有自己的数据中心,俗称机房。为了支撑大模型的超大训练量,华为云重新设计了机房的液冷总线、电源总线和网络总线的内嵌机柜结构。在千卡(一千张GPU卡)的规模下,用谷歌Pytorch+Megatron训练,最长1.5到2.8天就会发生一次故障导致训练停摆,而在华为云天成数据中心,大模型可以无故障训练一个月以上。
据华为云发布会上的披露,这套系统的AI训练效率比业界主流高出10%,中国有近一半的AI大模型已经在用华为的算力服务。
在中美的产业竞争愈演愈烈的大背景下,去年10月7日的芯片法案,限制了英伟达A100以及以上级别的AI训练芯片的对华出口。
虽然英伟达贴心地开发了专供中国的青春版AI训练芯片A800,但是我们知道,制裁的威力从来不体现在制裁本身,而是在于那种刑不可知而威不可测的权力,美国政府可以选择性地让一些中国AI公司自由发展,也可以随时掐断任何一家中国AI公司的芯片,开发框架和云服务的供应,让它前期的投资全打水漂。
华为云为全中国AI公司提供了一种保障,“在外面遇到困难可以随时迁过来”,昇腾AI云服务支持Tensorflow,Pytorch等主流AI框架。这些框架中的90%算子,都可以从GPU平滑迁移到昇腾AI云服务。比如美图仅用30天就将70个模型迁移到了昇腾。同时华为云和美图团队一起,进行了30多个算子的优化以及流程并行加速,较原有方案,它的AI推理性能提升了30%。
大模型是一个必然深刻改变社会运转的全局变量,显然华为认为这种改变会从AI重塑千行百业开始,其中文娱产业必然是最先一批应用升级的产业之一,越AI越FUN!
酷玩实验室整理编辑
首发于微信公众号:酷玩实验室(ID:coollabs)
分享给朋友或朋友圈请随意
越AI越FUN!
微信扫码关注该文公众号作者