钉钉叶军:大模型将掀起新入口争夺战
ChatGPT席卷全球后,如果有人问AGI会首先重塑哪个行业,办公场景一定是被提及最多的一个。
从施乐1974年推出第一代所见即所得编辑器Bravo开始算起,人类使用计算机进行“办公”已经接近50年时间。在漫长的演化中,软件随着需求的累加而变得日益复杂,人类在按钮和菜单栏构建的迷宫里追逐所谓“生产力”,完成自我驯化。
大语言模型(LLM)给办公带来了久违的革命——后者处理的大都是人类书面语言和数据,而这正是LLM的天然优势。Microsoft率先为其办公家族装配上了各类copilot,海外的Notion和国内的金山也迅速将大模型嵌进了自家的产品中。
钉钉总裁叶军则表现出了另一种“激进”——在一次媒体采访中他说:钉钉可以用大模型重做一遍。
叶军的个人风格向来温和。作为一名以实习生身份加入公司的老员工,叶军在阿里一步一个脚印地工作了17年,光是直属领导就换了20多个,他给人的印象一向“稳重”。但在这次大模型启动的AI浪潮中,叶军却展现出前所未有的坚决。
钉钉总裁叶军
在叶军看来,人机交互将首先迎来变革。从打孔纸带,到命令行,到GUI图型界面,再到触摸屏,人机交互在70年的周期里多次迭代,而机器能够理解人类语言后,人机交互会基于LUI——Language User Interface(语言用户界面)重做一遍。
除了人机交互,叶军认为AGI还会带来更多深远且不可测的影响——APP是否会被绕开?新入口正在什么地方形成?SaaS面临的红利更多还是冲击更多?……这些不确定性目前没有定论,必须在实践——而非案头研究中找寻答案。
今年春节后,钉钉的改造开始了,为此叶军不惜停掉内部不少重要项目。而到了四月的钉峰会上,叶军就已经能现场演示了接入通义千问后的新钉钉。通过“/”,用户可以使用AI功能,包括自动爬楼、生成文案和海报、拍照生成酷应用等。
“我们是小公司,只有1500人,转向比较快。”用叶军的话讲。
掉头快是一面,阿里的技术储备是另一面。一个有意思的事实是:早在2022年11月的云栖大会上,阿里向外界重点展示自己在AI领域的能力,周靖人在台上讲解大模型,贾扬清则在台上用钉钉AI机器人来画图,但现场观众兴趣寥寥。
所以早在ChatGPT掀起浪潮之前,钉钉就已经在用阿里的AI能力改造自己,而当内外部对AGI形成共识之后,钉钉的行动就如掠过山林的野火一样迅猛。如今钉钉已经成为阿里体系内第一个全面接入千问大模型的产品。
叶军认为有共识是好事,“就像放风筝,四五月的风是最舒服的,起码风向是一致的。”
但在叶军在对话中也坦诚现在很多事情看不清楚,作为率先摸着大模型过河的排头兵,亟待钉钉和叶军用实践来解答的问题还有很多,这些答案会给整个办公协同软件——甚至整个软件行业带来诸多启发。这也是我们这次对话的初衷。
当然,这次对话还发生在一个特殊的时间节点。不久前,阿里迎来了史无前例的组织大变革,阿里集团分拆成“6+N”个独立集团和公司。这意味着“能听到炮火”的前线管理者拥有了更高的权限,曾经的庞大帝国也有了跑得更快的可能性。
在改革发生后,叶军在钉钉的组织、人事、战略上拥有了更多的独立性,因此在采访中我们看到的是一个更为犀利和更有决策力的主理人形象,叠加大模型带来的新机遇,钉钉目前的状态可能更像是一个正在进行二次创业的崭新组织。
所以,轻装上阵的叶军要带领钉钉这艘上亿日活的巨轮如何驶向新大陆?我们本次的对话将围绕这个点,分成三部分来讨论:
1. 大模型会不会把办公软件重做一遍?如果会,它会以什么样的方式发生?
2. 在AI浪潮中,哪些行业可能会有机会?而哪些可能会衰落?
3. 钉钉接入大模型的思路以及如何面对层出不穷的竞争对手。
以下是我们对叶军的访谈:
“这次才是中国SaaS真正的元年”
Q:现在 AI 占你的时间多吗?你会焦虑吗?
A:还挺多的。感到兴奋,不算焦虑。四个月前大家都有点摸不到头脑,但现在方法也找到了。而且我们总体跑的还是比较快的,比友商肯定要更快。我们的布局是最完整的,所以我们没有太焦虑。
友商可能有时候会比我们更急,突然发现啥都没有,要从砖头开始造起。我们是钢筋水泥砖头都在,稍微弄一下房子就出来了。
Q:钉钉是从什么时候关注大模型的?
A:去年十一月云栖大会,钉钉已经接入大模型做一些应用了。第一天下午的主论坛上,第一个上去的是周靖人,中间是贾扬清。周靖人讲的是大模型,贾扬清用AI画画,用的是钉钉机器人,当时会场感兴趣的人不多。
到了今年春节后,钉钉上有用户集成了GPT 3,结果没几天就被封掉了。三月份,我们基本上各个产品线和AI集成的策略就已经确定了,发布会讲的四条产品线也有了。我们内部全员都在用,昨天还有个员工一天用了三四十次,大家都很习惯了。
在ChatGPT出来之前,钉钉就已经做过画画和写诗的应用,但当时没有预设现在这么多和钉钉集成的场景,目的是为了让聊天过程变得有趣,跟过去搞表情包的是一个性质,只是一个佐料。但现在,我们认为这不是个佐料,而是一碟大菜。
Q:比尔盖茨说现在这个时刻,很像 1982 年他第一次看见电脑的时候。当年电脑刚出来的时候,最先改变的是每个人的办公方式。AI首先影响的会不会也是办公领域?
A:我们认为这波AI最大的影响一定是办公。集团内我们第一个接千问,几乎所有资源都砸在我们这边了。我们每天都跟千问的专属团队对接。
原来公司也想结合电商,因为电商是我们收入最大的业务。之前做过以图搜图。如果没有场景、不解决具体问题,有技术也没用。
其实计算机出来后有很多行业都被改变了,比如说买机票和交易所都用计算机,但大家没什么感知。但只有办公是每个人都能感觉到的。这个行业同样很容易被改变,因为大家工作确实太累了,总觉得能不能轻松一点?我们提供的这几个场景确实很清晰,比如说看群聊的摘要,总比爬楼好。
Q:过去中国办公软件的市值比海外竞争对手小了很多倍,但在AI浪潮里,微软落地中国可能存在问题。那我们做一个简单的设想,有没有可能钉钉或另外的公司会把WPS、Office在中国重做一遍?
A:WPS和Office都在改变,如果他们不这么做,确实是很容易被取代。我的观点是,这次可能才是中国SaaS真正的元年,前面都是假的元年。
原来中国软件卖不通。大家习惯了免费,厂商收费就会被骂。而这次恰恰给了中国软件一次机会。我觉得应该重新定义软件的价值。难道做软件的人不值钱吗?都是受过教育,也需要花时间付出劳动,凭什么不能收钱?
以前的SaaS元年是信息化的过程,价值有限。但随着这次大模型热,大家可以自己训练模型,模型越做越专业,可以让SaaS产品的软件价值含量增加,而模型本身是在线的,那自然而然就会变成订阅制。所以我觉得这给了中国SaaS一次非常好的机会,那些不这么做的SaaS可能真的会退出历史舞台。
这个观点,我认为WPS同样一定会买单。微软先推出了CoPilot,如果他不是第一个上,我们也会上。在线版肯定会成为一个大趋势。
Q:去年这会大家都还在聊低代码。我看你在公开采访的时候有说过,大模型会是更好的技术。你觉得大模型对办公协同领域的革命性体现在哪里?
A:低代码也是非常革命性的工具,但大模型带来的影响比低代码还要“低代码”。
低代码的本质是让技术走向了不懂技术的人,这次AI让大家比低代码更往前走了一步。过去大家使用技术的手段是通过APP,但未来人们使用技术的界面就变成了No APP。
回想过去三十年技术的发展,最早人使用技术靠的是DOS,通过代码告诉计算机做什么,到后面Windows时代出现了GUI,人们用鼠标就能完成工作。苹果的iphone是一个转折点,从此之后大家可以用自然的触感去操作他。大模型的出现,把交互方式直接变成了LUI,language user interface,就自然语言直接成为使用 APP 的界面了。
所以我认为从No code到 No app 本身就是非常重要也很顺利的切换,延续了苹果 iPhone 时刻再往前走这一步,操作技术变得很自然。
Q:那之前钉钉搭建的低代码的能力,是不是也会藏到斜杠后面?
A:那肯定。未来所有的组件都可以用LUI来才做,但这个过程中不会干掉低代码。
人类使用信息和创作信息是两个阶段。LUI解决的是使用的问题,快速指挥机器。但机器返回信息时,绝大部分场景下视觉会比语音高效。我们之前做酷应用就解决了这个问题,所以我们不是从一块砖开始造的。我们已经有砖,只是叠加上去。
输入阶段,用LUI会比GUI方便,但是输出很有可能还是GUI更方便,因为人类用眼睛获取信息的效率是最高的。但输入信息就不一样,输入可以直接用LUI指挥,背后就调用了低代码和各种API,当然这个要训练到位。
所以大模型不会取代低代码,也不会干掉以前的开发公司,而是加速了某些环节。
Q:现在有一种共识是,ChatGPT本质上还是一个玩具而不是工具。你觉得大模型的应用,从玩具到工具的过程中,会经历哪些门槛?
A:从玩具到真正的工具上有两个重要的变化,一个是场景的结合,例如微软的Copilot解决了文本创作的问题。钉钉同样有这个环境,因为我们有场景。另一个则是需要大量行业的专属模型。大模型只是个底模型,要叠加真正的行业模型,才能生成有应用的工具。
我们现在的工作就是沿着这两条线。首先跟场景结合,满足了沟通、会议的需求。其次在底模型基础上,输入真实行业的信息。随着时间积累,行业模型会越来越有价值。
我前段时间刚见了一个客户,他是国内做模拟芯片的第一名。他们的客户场景特别多,过去介绍芯片就是一件复杂的事情。但现在他们训练了一个行业专属的大模型,别人来问的时候,机器人就给了很好的方案。其实在很多领域,大模型应用已经不是一个玩具了。
Q:你提到的这个行业模型,未来多大体量的公司会有这个需求?
A:未来各行各业都会有这个专属模型,可能以后万物皆模型。
理论上,你眼睛看到的,耳朵听到的,都是可以有模型的。问题在于你想解决多大的问题?可能未来会叠加一万个模型。很多人误解,认为大模型就是我搞了ChatGPT一个就够了。寄希望ChatGPT来解决全世界所有的问题,是不科学的,它就是个底模型而已。
Q:那拥有这么一个模型的成本是多少?
A:专属模型反而不需要花多少钱。
我举个例子,Stable Diffusion训练上一个版本时,据说用了几亿张互联网的图片,那需要很高的成本:好的GPU、时间、电还有人才。但专属模型在底模型的基础上叠加插件,比如说针对车牌识别再训练,适当买点硬件资源就行了。
Q:如果远川想拥有一个这样的专属模型,怎么做?
A:请专业人士把你们所有的文章全部标注,然后输进大模型训练,生成一个有80%-90%戴老板味道的文章是没问题的,能很大节省戴老板的时间。
前两天江南春就跟我们聊过这个事。他写营销的广告很厉害,想把这些优秀的文案全部输入专属大模型,跟我们钉钉合作。以后你在钉钉输入“/”,然后打字:让小江南春帮我生成一个我们公司的营销文案。它就会以江南春的积累给你生成。
我觉得以后每个媒体都可以搞一个这样的专属小模型,无论是文本的分析、纠错,还是语言的调整、风格的优化。
Q:那戴老板需要准备多少钱?
A:客观地说,三个月前你问我,我还真不好说。现在凭这些开源的大模型,在云上临时租用一些算力就行了。
Q:有一个客观的问题,目前大模型存在幻觉的情况:比如文档里说是苹果,模型生成的摘要说成葡萄。那么在工作场景下,如何确保信息的正确性?
A:首先你说的话我完全同意,大模型肯定会存在一定概率的偏失,不管训练得多好都会这样,但一个成熟的会使用AI这个工具的人,就应该预判到有这样的风险。
举个例子,我把AI当成一个员工。以我对这个人过往的了解,我不会那么放心,那么我自然而然还会再找另外一个人Check一下,但不代表我对他不信任。只是在这件事情上,我认为只有这样我才有确定性。
所以我觉得不能把AI当成一个非常准确的工具,而是关注他能提高效率的部分。我也经常骂我团队的人,你们能确认你们发的东西吗?你不能认为AI没用,否则你同样会觉得员工没用了。
Q:钉钉的AI产品推出之前,会经过哪些安全评估?
A:目前是这样的:首先通义千问这个底模型,就会有一个安全评估。随着参数量越来越大,训练的语料越来越多,训练时间越来越长,理论上肯定会好一些。再加上人为监督。
另外就是我们现在对输入和输出都有双重的、工程级别的验证。现在所有大模型最后上线都要经过双新评审,这里又有了一层监管性的保障,明确了出问题责任谁背。
这些都是一个很长的过程,不会说今天做完了明天就永远不用干了。
大模型掀起一场新的入口争夺战
Q:逍遥子在云峰会上谈到“MaaS”——模型即服务,我看你在之前的会上也提了这个概念。这个概念你们有交流过吗?
A:发布会前我们都在一起,这几层关系大家还是很有共识的。钉钉很大程度上就是PaaS,我们做了一些小的SaaS,比如说文档。但我们把文档又变成PaaS了,也能接受第三方的植入。那天我开玩笑,我们就是个火锅底料,里面可以加蔬菜、加雪花牛肉,但底料还是底料。
那天老逍讲的MaaS某种意义上也是个PaaS。因为模型其实就是PaaS的一类,但又跟传统PaaS不一样,需要大量业务的训练,所以我们认为把MaaS划到PaaS上面是合理的。
随着MaaS变得越来越强,SaaS结合MaaS后,SaaS会拥有大量的能力。我认为未来所有的生态都应该接入MaaS。
Q:现在从钉钉进入酷应用,跳转的还是生态自己的页面。未来模型及服务以后,斜杠直接调出功能,是不是就感受不到SaaS厂商的存在了。
A:对,所以我说这波AI浪潮对SaaS会有很大影响,它的界面会被拦截掉。未来不光SaaS会被拦截,我觉得很多APP都会被拦截掉,这又是一场入口争夺战。
说难听点,假设淘宝把所有数据开放了,你还会打开淘宝APP吗?你在搜索引擎上就解决问题了。现在每个APP都是信息孤岛,但当大模型发展到一定程度,就真的No APP了。
所谓的“No APP”也有这层意义。未来有可能小APP都会退化成一个组件。你说的酷应用也是,酷应用背后有很多SaaS,也许以后只要保留交互层。那APP的压力就很大了,它没有流量了。所以这里面涉及很多商业问题,又不只是一个纯技术问题。
Q:会重新有一个超级入口。
A:是的,会有一个新入口,重构流量。这既是机会也是挑战。
Q:大家意识到大模型的重要性之后,钉钉在整个集团的重要性是不是也大幅提升?
A:对。我们今年年会的主题是智创未来,这一阵从阿里集团层面、阿里云层面,都把它当成核心战略。
因为技术有一定的周期,这个周期就是这样。你如果不踩住这个周期,就像2015年的移动化,很多企业没踩中就划破了。微软没有踩中移动化,但微软踩出了云,这波又踩中了AI,所以微软一下子又起来了。
我觉得产业革命就是这样的,一浪一浪的,一浪没踩住就会错过很多东西。
Q:有点像门票。
A:现在肯定是的,这波会热一段时间,直到哪一家拿出了杀手锏。
Q:就像移动互联网时代一样,大家抢移动端的门票,淘宝也无线化。
A:我们当时做来往就是。来往没做成,但成了钉钉,至少还活着。
我觉得这就是一轮新的周期。特别是对各行各业来说,这一轮如果哪个行业还没考虑这件事情,这个行业未来岌岌可危。
前两天很多人讨论AI取代人的工作,我说你们想小了,取不取代人的工作先不用讨论,取代这个行业是很有可能的。行业都没了,哪来你的工作。
Q:设计师现在感触最深。
A:对,所以他们是最先反应过来。谁反应快,说明谁的行业被影响得程度更大。谁反应慢,要么这个行业彻底以后就没了,要么就这个行业真的太没落了,没人关注,太冷了,投入产出比不高,没人关注他。
谁跑得快谁往前
Q:接大模型这个事大概什么时候确定的?当时是怎么定下来的?
A:去年11月云栖大会的时候,我们就接了大模型。我们当时接大模型做的产品比较浅,有写诗和画画的功能,但那时候社会上是没反应的,我们是最早开始的,友商根本没听说这事。
春节之后是我们的加速期,一定程度是被市场所逼,因为看到了ChatGPT的进展就着急了。现在是战略投入期,因为大家有共识了,我是要求钉钉角角落落都进行智能化的改造,所以每个员工都在投入这个工作。
Q:前几天WPS提出三个方向,一个是AIGC,一个是阅读理解,一个是人机交互。钉钉这边结合大模型,有没有什么产品的大方向?
A:我们内部是按照产品线:钉钉文档、 IM 产品线、教育行业线。
Q:产品重要性上有没有优先级?
A:现在我们所有智能化项目都跳到最优先了。发布会上的三个场景,这个月底都会上,现在还在等监管审核通过。
最先上的是钉钉文档,第二个是IM里面的摘要和待办功能,第三个是拍照生成低代码。三个产品场景优先级都已经拔到最高。
Q:未来有没有可能变成一个企业经营管理工具?比如说直接问钉钉,上个月最大的三笔现金流入是什么。
A:其实那天发布会演示本来就有这个环节,但我一紧张漏掉了。我们当时是可以问这个低代码模型,哪个门店的效益最好。
这里有个问题就是数据安全的问题。你愿不愿相信平台,把自己的经营数据交出去?如果你不是那么相信,可以做专属的部署,只需要买一个底模型,但接口还是对接到钉钉上。我们帮你解决输入输出的问题。
Q:你之前提到过,办公协同的创新其实比的是速度。你觉得这个行业里,“快”为什么这么重要?
A:某种程度上,这个行业你说有多大门槛也没有。你说Office跟WPS有多大区别?其实最终就是谁进的早,就能占了你的桌面,你的习惯,你就不愿意替换了。
所以我们AI为什么搞得快?因为客户有需求。我们那天已经发了一个视频,但那个不是概念稿,是一个真实操作的录屏。
Q:你觉得你们是市场上跑的最快的一家吗?
A:是的。我们春节后就把所有项目都停掉了。船掉头是要有代价的,所以你得把那些中途项目都停掉。我们这个小公司才1500人,所以我们调度很快。友商估计要花点时间。
友商内部其实也有人在问我们进度,问到之后他们都很焦虑。他们说钉钉功能多,复杂难用,其实很大原因就是因为他们没有这些功能,现在他们也变得越来越复杂,还要补很多东西。
以后有了AI,我们就不怕功能多了。AI可以直接调起功能。
Q:你刚刚也提到钉钉的功能其实比较多。网上也会有一些声音,觉得飞书比钉钉好用,是因为飞书更简洁。那这是两种不同的战略吗?还是你们会为了功能暂时牺牲一些体验,觉得这个问题未来可以解决?
A:客观讲,我们当时也没想到智能化会解决这个问题。
ToB的第一性原理是解决问题,我认为解决问题比体验更重要,你起码得先帮别人解决问题。这就是为什么我们去做考勤,做这么多复杂的功能,因为它真的涉及很多实际场景。他们说我们使用复杂,那你功能都没有,不就简单了。
你今天看到的是钉钉的前台界面,就是聊天,后台才是我们的强项。信息安全对企业是非常重要的,比如宁德时代不允许某些类型的手机登录,我后台还得给它配置只允许这几款手机登录。
人家说钉钉是做管理的,那难道管理不是一个重要的事情?管理和员工体验不冲突的。要是我们体验真的差,怎么会有这么多用户?安踏是运动服装第一,宁德时代是电池第一,包括一汽集团,这些企业都在用钉钉,这些企业不先进吗?
Q:逍遥子在云峰会上说未来阿里的产品全部接入通义千问。未来达摩院和钉钉是属于合作,达摩院提供底模型,钉钉做应用层的东西,还是有可能两条线一起跑?
A:在底层上都是用达摩院的“通义千问”,专门发布了一个版本给我们。后面在某些小模型上,我们自己可能会有一些AI团队的建设,改造一些公开开源的可商业化的产品。但主力底模型还是“通义千问”,因为底模型再做一遍有点不值得了,那个训练代价有点大。
Q:现在很多做大模型的团队,自己也会做一些应用。达摩院未来是不是也有这个可能?
A:未来他们可能也会自己做,只是我们先出现在办公赛道,不可能再被取代,原因就是因为我们够快。
Q:阿里内部也存在比谁跑得快。
A:对,谁跑得快谁往前,公司里面应该都是这样的。包括它内部最早做大模型也有两支团队,也一样的。
Q:阿里之前的组织变革“1+6+N”,其实也是希望组织能变得更快。你在前线有没有什么感知?例如说有什么决策是你过去不能做,但现在可以了。
A:我觉得“1+6+N”应该是阿里史上最大的一次变革。大企业要想跳舞,有个前提条件就是要把决策权交给前线,要让听得见炮火声音的人去做决策,我们现在已经变成一种制度了。
比如说我,我以前招聘每年都是集团有HC。集团说你今年1500人,你可以再招50个,如果你想招100个,你就得先干掉50个。但现在经营权下放,就没有这个问题了。我自己可以决定招什么级别的人,招多少人。
类似这样的很多,包括业务决策、人事决策、财务决策。
Q:现在全面转向AI的过程中,有没有例子?
A:决策都是我做的,事情变得更简单。以前我还得找老逍汇报,他问我一句,我答一句。但这次我们开发布会,他说你要开发布会了,什么主题啊?我说这次就是讲AI。他说好的,就结束了。
现在我年底多赚的钱可以转成年终奖,可以独立控制去激励,我也可以决定自己的激励方式。以前阿里比较出名的年终绩效就是“361”,今年我对于基层员工不用这个了。过去大部分人的年终奖是三个月工资,但今年有可能P6的年终奖倍数,拿的比P9还多。
Q:现在很多办公协同的玩家都出了AI功能。你觉得这个市场上大家的竞争优势有什么区别,钉钉的主要优势又是什么?
A:我们的优势是业务场景化会比他们都要好。
我们有大量的业务语义的能力,包括低代码应用、酷应用。我们的强项是业务数字化的能力,他们可能在纯文本或者纯图形。
WPS的视频、会议、IM和邮件显然没起来,要补很多课,在一站式上显然没有我们强。企业微信可能更麻烦,内部都理不清楚。像Notion最大的问题也在于缺乏协同性,只是一个个人创作软件,没有组织这个概念。飞书要准备的东西还很多。
Q:钉钉今年会推出个人版。个人版是不是可能会部分取代像WPS这种传统办公软件?
A:跟WPS有点不一样。我们现在都在测个人版,主要用户群是高校老师、学生和部分大公司里面的小团队。
WPS还是以文本创作为中心,但钉钉个人版以知识整理为中心。Office和WPS本身是排版系统,他们的出发点和我们完全不一样。我们不是以排版为主,到现在都没有文字环绕功能。我们不是要简单地干掉Word,我们还是以解决问题为中心。
虽然大家都表现出来在打字,但打字的目的是不一样的。很多事情只是看上去很像而已。比如说大家都在造车,理想造的是L9,小鹏造的是P7,都是不一样的东西。
那未来会不会影响WPS的部分市场?也许会,但我们从来没想过去代替他。我们也买WPS,每年给WPS交很多钱,因为钉钉WPS文档引擎就是用他们的。
Q:你之前也对外说过,钉钉在今年以内所有场景都会具备智能化能力。时间表是什么样的?
A:五月底所有发布会的功能都会上线邀测共创,紧接着就是客服、搜索更多的场景。理论上这些全部会在年底前都会看到,如果双新评审进程都正常。
Q:大模型全面改造钉钉之后,你有没有设想过终极版的钉钉会长什么样子?
A:钉钉的很多功能的第一入口都会变成斜杠。只要你说清楚你想干啥,他就能把功能给你调出来。
我们现在也在调整界面搜索框的大小,我们最近把它变大了,后面还会再扩大,而很多聊天窗口里面小的按钮会逐渐淡化。
微信扫码关注该文公众号作者