“1.0阶段类似辅助驾驶,2.0阶段是自动驾驶,3.0 AI Agent是SaaS走向无人机时代。” 编者按:2023 年 8月14日,第七届GAIR全球人工智能与机器人大会在新加坡乌节大酒店正式开幕。论坛由GAIR研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办。
大会共开设10个主题论坛,聚焦大模型时代下的AIGC、Infra、生命科学、教育,SaaS、web3、跨境电商等领域的变革创新。此次大会是在大模型技术爆炸时代,首个出海的AI顶级论坛,也是中国人工智能影响力的一次跨境溢出。
最后一场名为“从GPT爆炸中诞生的超级SaaS”的专场上,前阿里智能设计实验室负责人、阿里鲁班创始人、特看科技CEO乐乘以《大模型×SaaS的分析与实践》为主题发表了大会报告。回顾过去,乐乘表示自己因做鲁班才正式进入AI圈,后续一直在阿里做电商与AI内容生产相关的事,直至去年转变身份开启创业新征程。如何把握AIGC时代里的新机会,乐乘认为大中小模型各有价值和能力,但对tob的SaaS来说,未来的机会更多集中在中小模型层面,其中代码、文本、图片和视频直播几个板块已经有不错的实践。大模型能在短时间内快速生成子模型,占据“多”和“快”的优势,也意味着高成本和长期投入,因此SaaS创业公司的机会在于聚焦一个品类、场景和行业的应用点,解决“好”和“省“的问题。在他看来,AI模型和SaaS结合有三个阶段。1.0阶段是在SaaS的基础上加上AI能力,AI作为辅助工具,附加商业价值。去年年底ChatGPT的出现将大模型推入2.0阶段,AI视频自动生成系统等AI原生SaaS就此诞生。阶段AI和SaaS是乘法关系,失去AI能力,系统将就此失效。乐乘的构想中,3.0阶段是AI agent SaaS,即把智能体当成服务本身,AI可以自行完成闭环的业务问题。“真正走到这一步的时候,可能是对行业又一次颠覆性的改变”。以下为乐乘的现场演讲内容,雷峰网作了不改变原意的编辑及整理:
乐乘:大家下午好,我是乐乘,很高兴今天来这边给大家做分享。上一场好几个嘉宾提到杭州电商工具服务商特别多,刚好我也是杭州过来的,和大家分享下杭州卷到了什么程度哈哈。我今天分享主题是《大模型×SaaS的分析与实践》,内容完全基于我们公司在该命题下做的一些思考和具体实践。我2009年去淘宝,在淘宝干了13年,去年才出来创业,一直在做电商和AI内容生成有关的一些事情。以前大家也听说过鲁班系统,2016年的时候还没有 AIGC 这一说,但我们已经用 AI 来生成图片做投放,也是因为做鲁班,我才算正式进入了AI圈子,这几年也一直关注AI的发展。去年年底大模型出来以后,大家全蒙了,一方面感觉它是无所不能的,好像所有SaaS公司都要完蛋了,但过了一个季度之后又发现很多事情它好像也干不好。我们认为大模型创业机会和挑战这个问题本质上还是要回到每层模型的价值和能力去讨论。我们认为最底下这层大模型是解决通用产品问题,典型的像ChatGPT以及其他通用产品,它就像一个名校的本科生,有很强的通识和逻辑能力,但他刚毕业来你公司,你想让他做一些专业领域的事情,他干不好。中间这层模型的机会在于我们可以把它培养成一个业务专员,它在专业的领域里去做深,像金融领域的BloombergGPT,能在行业里面产生一个价值。但未来可能更多的一些机会在最上面一层的小模型,它主要解决的是个性化产品问题,像某个领域里的专家,并在领域里建立起私有的数据闭环后,它能做得比通用模式做更好。从模型分层角度可以定位我们到底在哪里,比如特看a科技,我们就是做SaaS做应用层,所以我们很多工作会在中间和上面两层去做。再把应用场景切到AIGC内容领域,我们把它分成了代码、文本、图片和视频直播这几个象限,这就大概能看出创业的机会和未来空间在哪里。我们公司选择的方向是最后一个视频直播赛道。我们会用大模型底座的一些能力去做视频直播,但重点在行业和个性化模型这两层去投入。比如说我们用 GPT 来做视频写脚本,首先我们会先按电商、广告、游戏行业划分,建立一层中间模型,再往上面可能就会具体到某个品牌客户,像我们与宝洁的合作,宝洁就很明确提出要特有的差异化的模型,说明市场对个性化模型需求是存在的。定好位,确定好赛道,再在行业里去细分,类目就比较多了。其他赛道也有很多类似的机会。我们认为从大模型到最后客户商业价值这一端,中间会经过一次扩散收敛的过程。大模型擅长的是“多”和“快”,在很快的时间内生成很多东西,但它在 ToB 领域不见得是好的,因为(大模型)也意味着高成本和长期投入。创业公司的机会就在于在“多”和“快”的基础上,收敛到一个聚焦的品类、场景和行业的应用点里面,解决好”和“省”的问题,这也有很多商业机会。以上是我们对模型分层的判断,后面具体讲一下大模型和 SaaS 结合的分析和实践。我的观点是把它分成三个阶段,1.0阶段是在 SaaS 的基础上加上 AI 能力,最好理解也最容易做到。2.0阶段是做 AI Native SaaS,完全基于 AI 的思路来构建原生的SaaS。3.0阶段是 AI Agent SaaS,即把智能体当成服务本身。1.0阶段最好理解,你本身已经有很成熟的SaaS客户群体了,当你在业务应用里加上大模型,加上行业模型,效率和产品的商业价值都更高了,但如果把加的东西拿掉,业务应用照样跑,AI只是作为辅助创作。我们已经有一个相对成熟的数字人直播软件。(案例展示)我们的优势在于主播的口型生成、表情的自然度、肢体动作的流畅度,包括它可以像真人主播一样刷手机,拿个牌子在旁边聊天,无限还原真实直播间主播的状态,较之前那种只能动嘴,脖子都不能动的主播,已经迭代了好几代了。这就是目前国内数字人的发展程度。另一个案例是我们提供给宝洁的数字人直播软件,加上GPT后,用大模型帮客户辅助生成直播话术语,否则一场直播下来两个多小时的内容,靠人写成本很高。(案例展示)现在宝洁直播间白天真人播,晚上数字人播,整个账号的稳定性和成交效果都超出了预期。类似应用在国内电商带货领域已经比较规模化。还有一个实验是我们把类似大模型的对话引擎做成原神游戏里npc的样子,放在抖音上实时与用户聊天互动。这个玩法在抖音里比较受欢迎,有原神游戏的用户对这个角色有认知、有感情,曾一度聊了4个小时,还给了打赏。我们现在已经进入第二个阶段,做AI原生的SaaS。这个时候AI模型和SaaS不再是加法而是乘法。一旦大模型没用,业务跑不起来,这是两个阶段最大的差别。特看科技做了一个 AI 生成视频的系统,细分可以分为脚本生成、画面生成、声音生成和组装编辑四个层面,对应视频的三个维度和故事线。以前脚本只能手写,现在AI系统可以把一些爆款和广告视频拆完后,微调翻新形成自己的脚本模型。只要在大模型的基础上,加上电商广告特定领域的行业小模型,脚本模型就可以自己跑。画面生成也是一样的道理。现阶段图片生成技术已经相对成熟,我们认为未来视频的画面生成也可以靠大模型实现。另外我们为什么做数字人?因为在所有视频里,占比超过30%的内容都是人在讲话,数字人可以去生成有人的画面内容。画面生产如果不是大模型突破,基本上做不了,所以是典型的靠AI原生的一个应用。声音生成,在大模型进来后,TTS效果也好了很多。视频组装编辑这块,也需要用到多模态大模型才能做,因为视频它本质上是文字+语义+画面理解+连续的故事线的多维组织问题,多模态的应用作为基座非常重要的。我们目前就是基于这四个层面研发我们的AI视频系统。客户向我们表达需求,或者选择一个参考视频案例,我们给客户生成结构化的脚本,脚本是结构化的有语义标签的一套协议,比如分镜一是一个人在讲文化,分镜二是产品展示,分镜三又是讲其他什么,类似给一条视频打码,再加上客户给的一些产品视频,或者我们生成的图片素材,以及数字人,就可以以脚本为依据去,一键组装出一条视频来。(播放样片)这条视频里面,除了产品素材是客户给的,其他都是 AI 生成的,也是真正意义上AI原生的应用内容。当把这里每个环节的大模型都拿掉,我们就又回到传统的剪映那种视频编辑体系中去,这些就做不了了。我们把这定义为AI 原生SaaS。(真实交付案例展示:Anker出海广告视频)我们的脚本来自过往平台里已经爆了的爆款视频,微调之后生成我们自己的语料库,它爆款概率和人有优势,我们跑下来的情况大概是客户用10条我们生成的case去投,跑爆的概率有两到三条,跑爆率相当于一个资深的运营,但系统的反应速更快,比如我们改个脚本,改个台词,可以马上生成新的进行更新,不需要再找人重拍重剪,整个反馈效率很高。在2.0阶段,我们有几个观点。第一,像ChatGPT、 Stable Diffusion都是从论文标题里直接拿出来运营做产品的,早期阶段发生的一个现象就是直接技术产品化。比如说我们现在已经不关心直流电还是交流电了是吧,早期会看,现在甚至连电怎么都不关心了。所以我们判断到了 2. 0 AI Native阶段,大家不再关心你是 GPT 还是什么大模型,你就是一个能够解决问题的新技术,因此这个阶段不会再出现GPT这样的名字,而是像 Runway这种典型的品牌名,产品品牌化。其次,我们认为以后一个 SaaS 的用模量越高,产品越值钱,也越能收到钱。我们内部很关心一个词,叫“用模量”,就大模型的使用量。一个系统整体的技术成本里,有多少钱投在了大模型,多少钱投在了传统工程,多少钱投在了产品推广应用?用模量决定了产品的厚度,即移除大模型之后应用的可用程度。当然也有另一个层面的考量,万一以后大模型挂掉,你的应用客户还有多少能用,也算是个兜底方案吧。类似大家过去关心用电量、用语量,以后也会有人关心用模量。我们认为以后一个 SaaS 的用模量越高,产品越值钱,也越能收到钱。
目前我们还没到3.0阶段,因为视频直播SaaS,agent在我们这边应用还稍微会晚一点。但我个人判断到了这一步,agency即业务,它不再有一个专门的业务应用去和客户做交互,agent 本身就把可以业务全部做完,包括记忆、规划、行动等。这是目前行业里对 AI agent很经典的一个架构图。理念我就不细讲,我们的视角在于以后怎么让agent用在SaaS 里面?我们认为以后会在工具的使用和行动两个方面直接对接业务产品,把业务问题解决掉,然后去构建它。至于说里面的像记忆、规划可能是偏系统内部的逻辑,我们以后可能会在工具的调度,比如视频的投放,包括行动里面具体的反馈闭环,数据的反馈也都是非常重要的。当然这时候可能还早,因为我们刚开始2. 0解决AI native的过程。到时候我们就能看到1.0是辅助驾驶,搭把手的。2.0可以完成自动驾驶,到了3.0 AI Agent的时候,代表SaaS走向无人机时代,你制定的任务,它往外飞,你遥控它就好了。这个画面感大家可以回到自己所在的行业应用里面去考虑,如果今天你设计的是无人机系统,你怎么用一个无人机全闭环地完成一个业务问题?这是我们未来思考方向。在我们这个领域里面,AI agent 在 ToB 的价值会重点体现在全工种和全连接。如果说你的SaaS应用是一个人就能搞定的,agent 的优势并不明显,但涉及到多工种很多工作全部连在一起,它能够完成工种和Agent之间的协作的时候,它的价值会放得很大。就我们从事的视频内容工具行业来看,未来可能从编导、摄像、剪辑、运营、投手这五个工种的工作,背后会用一个agent来做代理,它们之间可以完成从视频的策划到剪辑、到数据、再拿回来再优化,这个周期全部自动化完成,人可能像无人机一样去做一些小遥控就完事了。真正走到这一步的时候,我觉得也是对行业又一次比较颠覆性的影响,到时候人和 agent 之间的关系可能也要重构,内容平台到时候可能也会做一些相应的反馈,因为现在的投放系统是做实时投放和实时反馈,当agent也拥有这个能力的时候,一堆agent和内容平台互相对抗互相投流量,也是挺有趣的画面。我们目前在做两件事情,一个是把数字人用在视频、直播两个场景,视频方案主要解决种草,比如客户的新品发布、新客拉新以及品牌全品类等。数字人直播更适合收割而非拉新,目前直播领域还无法像视频一样拿数字人讲故事,做创新。直播方案主要是用在品牌客户一下子开很多爆品的商品直播间,直播间只卖一个品,但可以很精准地去承接流量。流量可能不高在线就 5- 10 个人,但他因为足够精准且成本够低,算下来ROI也是非常划算的。目前国内数字人还处在一个早期略显混乱的阶段,但随着一些头部的品牌,包括消费者对数字人的效果、接受度慢慢起来之后,我认为它在整个直播市场里面的占有率和渗透率会稳步往上走的。这是我今天跟大家分享的内容,如果对分享内容或者说对AI SaaS 这方面有兴趣的,欢迎和我单独的交流,谢谢。乐乘:我们现在可以很低成本地创造一个数字人, 6000块一个终身模型。雷峰网:从目前的设计来看,是一个很长的pipeline把各种不同的模型放到一起,比如脚本、画面等,每一个模型它的效果和质量以及迭代的成本都是不一样,从目前这个视频系统应用里观察到的,多模态结构里哪一个模态最重要,哪一个最不重要?乐乘:脚本、画面、组装是我们系统核心的三个模块,三者对一条成片的质量影响是3:3:3的权重,因为客户对效果的评价不取决于片子好不好看,他更关心投放效果好不好。脚本决定它的爆款率,画面决定产品的传递有没有到位,组装决定的是用户感受好不好,比如说音乐选没选对,画质和节奏感有没有卡好,三个模块对成片的质量影响是全都一样的,只是在消耗的维度有一定差异,所以对我们这套系统的一个挑战就是每一段都要做很好,先把路疏通,然后每个模块逐步逐步地把它拉往上拉,最后承接就越来越好了。雷峰网:从视频平台风控的角度怎么去看数字人和数字直播对内容的冲击?AIGC与视频平台内容之间会不会有一个奇点,越过奇点后数字生成的内容达到真人生产的水平?乐乘:好问题。我自己也是从平台出来的,所以我完全可以站在平台角度反推他们对应用公司的姿态和对我们价值的看法。以国内抖音为例,抖音从来没说过要打压或封掉AIGC,对不对?它是一个中性偏正向的态度。但这里面平台会划一条线,比如平台非常讨厌那种劣质的数字人,口播嘴型都对不齐的那种,另外一个就是内容重复录播拿视频来骗流量的,这是两个底线。只要在这两个底线之上再加上一些精细化的运营,比如后台安排真人运营,数字人的回答就做得好一点。目前AIGC生产的水平已经接近平台的及格线,但肯定不会是产品的终点,再过一年多内容质量应该能拉到七八成,那时应该就是一个很良性的事情了。像宝洁这种头部品牌客户,明确提出他们的目标也是希望未来能够完全取代真人,它才买我们,如果我们没有这样的目标和路径的话,宝洁一开始可能不会去找我们合作,它们对于是快速切入场景还是自己长期做下去也有自己的取舍。