独家对话李开复:中国AI助手赛道DAU仅千万量级,大模型市场教育很迫切公众号新闻2024-06-18 09:06中国大模型赛道上的所有选手,都期待着能押中AI时代的超级应用。然而,至今为止,中国所有的AI助手应用加起来的DAU,也才就千万量级。而在2022年底爆火的ChatGPT,在两个月内就收获了1个亿的用户量。自ChatGPT引爆AI大模型热潮以来,中国大模型就一直面临着一半冰,一半火。火热的是行业内的学术交流、讨论、积极探索,冰的是,资本的谨慎、观望和对大模型PMF的争论。火热的是,“百模千模”竞相登场,冰的是,在尝鲜期后,用户似乎“留下来”继续使用的意愿不大。对于在这条赛道上狂奔的创业者来说,这种“冰与火”的交替淬炼,让这难忘的一年多似乎堪比上一个创业热潮的十年。在2024智源大会现场,腾讯科技独家对话了大模型行业的创业者、零一万物CEO李开复博士。从创业导师到创业者,李开复被媒体称为“AI行业最年长的创业者”,比任何人都敢于讲真话:“大模型的评测得分,并不是每一家机构的数字都是可信的。”“即使在大模型时代,获客的漏斗模型依然有效。”“一些AI工具的投流量巨大,但ROI是多少?是否适配‘持久战’还待观察。”“太多用户把AI助手当搜索引擎用,大模型市场教育是目前最重要的事。”这几句话,也透露出李开复对于大模型创业“现实”的严肃思考:模型能力是必须苦炼的基本功,权威可靠的BenchMark才能秀真正的肌肉;向“投流”要增长的前提是产品能力和产品留存率,否则就是“白白烧钱”;中国大模型AI助手赛道远远没有到达爆发时刻,用户渗透率极低,用户教育成本极高——即使有这样多的AI助手产品被推出,还是有太多的用户仅把它们当“搜索引擎”用。这条赛道上的“创业长者”李开复,开始主动拍视频、主动做分享,还号召友商一起合力完成市场教育。“过去很多事情比如移动支付、短视频都是中国一下就引爆了,然后美国来学着的,怎么这次倒过来了?我们现在最重要的事情是尽快推进市场教育,这样才能够让整个大模型生态健康地往前发展。” 以下为对话内容:腾讯科技:如何客观评判一个大模型的强弱,大模型的能力对大模型公司的未来发展意味着什么?李开复:如果只是讲大模型的Benchmark,我觉得并不是每一家的数字都是可信的。客观评判有几个办法,首先是自己实际用,接入API,最好可以有两三家来做对比。这个肯定是不会错的,但是比较耗费时间。而且如果是有二三十个模型,你不可能一个一个拿来试。我建议大家参考一个有公信力的第三方平台。比如Chatbot Arena,它是让上千万的用户“盲测”,我觉得这是现在最公平的方法。除了伯克利的LMSYS Chatbot Arena,另外还有斯坦福的AlpacaEval,它是一种基于 LLM 的全自动评估基准,机器评测而非人来测。所以我会建议大家从这两个擂台里面挑选性价比最适合你的几个模型,然后自己去做测试。因为第三方平台会确保没有让大模型“刷题”,还有大量的真实用户,而且是用科学的方法,他不是让最好的模型跟最坏的去厮杀,他会像国际象棋围棋打分一样的,最顶级的9段打9段,8段打8段的,做出来颗粒度很细,可信度很高。 零一万物Yi-Large千亿参数模型参加了上面两个权威评测,都取得了国际领先的成绩。尤其在5月21日LMSYS公布的评测中,Yi-Large在中国大模型中排名第一。在公司排名上,零一万物也仅次于OpenAI、Google、Anthropic三家硅谷巨头,是全球第一梯队里唯一一家中国公司。不少国内公司说他们打败了Google、OpenAI、Antropic的最好的模型,我其实建议在说这个话之前,把自己的模型拿到这两个“大模型擂台”,讲出这话才更有公信力。腾讯科技:实测尤其是接入API,专业用户或企业用户能比较客观感知到模型能力的强弱,但是C端用户可能从AI个人助手等产品体验,感知没有那么明显,这时候怎么选择呢?李开复:对,你讲得非常对。国内众多AI助手中,我们对某些助手的模型持认可态度,但对其用户体验却不满意;而对另一些助手,我们对其用户体验感到满意,却不认可其模型。这两者之间自然是存在相关性的。如果模型本身质量不佳,那么很难通过其他方式来弥补。然而,在拥有一个基本合格的模型的基础上,通过工程手段可以显著提升产品体验,包括交流过程、对话方式、问题回答方式、问题格式化,以及制作美观的图表,使回答更加亲切、可爱,从而赢得用户的喜爱。另外还可以用RAG来提升体验,所谓的"RAG"(Retrieval-Augmented Generation),即利用更多的信息库和实时信息来弥补模型的不足。这不仅可以补充大型模型可能缺乏的最新语料或新闻,还可以解决事实性问题,某种程度上解决大模型可能产生的幻觉问题等。RAG技术非常实用,今年3月,零一万物进一步推出了基于全导航图的新型向量数据库笛卡尔(Descartes),为RAG提供了高效极速的检索机制,0.1秒判别用户意图,极速调度检索,给予用户高效的优质反馈。这项技术也应用到了零一万物研发的AI“特助”万知上,不仅知识问答场景支持实时访问和整合互联网信息,为用户提供最新的数据和见解,在AI读文档场景上,Yi大模型本身的超长上下文窗口搭配领先的RAG方案,共同构建起了万知“5000页文档速读”的超长文档阅读能力。60万字的英文小说《马斯克传》一度让不少AI助手“宕机”,万知则能轻松解读。 有些公司在RAG方面做得非常出色,当你询问关于新闻事实性的问题时,它们的回答非常准确,但实际上并非它们的大型模型在回答。说了这么多,我认为每个用户都有自己喜欢的最佳助手。因此,我们推出了"万知"助手,并且在用户体验方面也做得相当不错,但是我们会继续努力。腾讯科技:为什么大模型公司面向C端都选择推出个人助手?李开复:别人为什么做我不太清楚,但是我们为什么做个人AI助手?我们其实是认为中国现在面临的一个比较大的挑战,就是还没有全民使用大模型。用这样的一个ChatBot是可以让每个人都能容易体会到这个很好用很聪明,慢慢的市场就被教育了,有了这个基础你就可以做生产力工具、可以做游戏、做各种TOC、 TOB的应用。今天我们可以看到的是,在国内全部大模型DAU加起来可能是千万量级,非常小,比我们平时用的每个应用都小很多。这说明用户的市场教育还远远没有完成。ChatGPT moment就在前年的12月,它被推出来之后迅速席卷全球,两个月之内达到1亿用户,这样的现象级事件在中国还没有发生。中国的这些助手有几家做的真的挺不错的,甚至我觉得是可以对标当时的ChatGPT的。ChatGPT点燃了美国市场,市场被教育之后,创业也容易了、销售也容易了,大公司去接受也容易了。我们现在最重要的事情是尽快推进市场教育,这样才能够让整个大模型生态健康地往前发展。我觉得这是所有友商都应该去一起推动共同的目标,这个目标如果达不到,其实TOC、TOB往前推进都会有挑战。腾讯科技:既然中国最好的几个工具都可以媲美当年的ChatGPT,为什么美国点燃了,中国没点燃? 李开复:这个问题很值得探讨。而且过去很多事情比如移动支付、短视频都是中国一下就引爆了,然后美国来学着的,怎么这次倒过来了?我并不确定答案是什么,但是有可能是美国ChatGPT,当年就这么一个产品,有史以来从未有过,媒体大量报道,非常引人瞩目,点燃了市场,也让OpenAI得到了非常便宜的流量。今天中国的情况似乎是有几家公司都做得不错,但是就没有点燃这件事情,所以我觉得教育市场是现在的当务之急。中国大模型工具做了这么一段时间才达到千万量级DAU,我们一定要反思这个问题,仅仅花钱去烧流量,完全没有用。今天中国AI助手不是因为钱烧得不够多,而是因为留存不够,留存为什么会不够?竞品太多,反而大家觉得不稀奇了,这可能是一个非常重要的理由。另外我觉得还有一个理由就是当市场教育不足的时候,一个用户第一次接触这样的一个ChatBot,他可能觉得长得像搜索引擎,我就把它当搜索引擎用。但是 ChatBot不见得会比搜索引擎答得更好,你如果说今天天气怎么样,或者是说某个省的最小的城市是什么,最大的城市是什么?搜索引擎都是基于知识型、新闻型的常见的问题,搜索引擎经过多年的技术发展,基本都可以完美的回答。所以大家把一个可以帮你写作文、可以帮你分析场景、可以帮你写PPT的聪明小助手,你就把它当搜索引擎用,大材小用了。所以我们也呼吁用户用AI小助手的时候,请把它当助手用,不要把它当一个搜索引擎用。腾讯科技:会不会还有一个问题是现在使用门槛还比较高,因为其实不同的Prompt指令给到小助手,其实收到的效果还是很不一样的。李开复:对,把它当搜索引擎用是一个问题,还有一个问题是,你不知道怎么问问题。比如你问一个很泛泛的问题,“帮我想写篇主题是AI的演讲”,内容肯定是写得不好的。 你要给它很多细节,所谓的prompt engineering,这个工作也是教育市场的一部分,所以我现在也录了很多小视频,就是希望能够让用户了解,我用这些小助手结果不好,其实是我问题可以问得更好,教大家怎么去问好问题。我觉得在大模型时代,最强大的人,其实不是最能够写内容的人,而是最会问问题的人,最会问问题的人搭配一个最好的小助手,那就会比原来的会生成内容的人都要强大很多倍。腾讯科技:刚才你提到既然留存还不足,如何看待现在AI应用产品已经在大范围“投流”的现象?李开复:这个答案其实在过去20年里都没有变化:当你的产品达到了产品市场契合度(Product Market Fit, PMF)并且用户留存足够时,就可以开始花钱购买流量。因为买来的流量能够转化为留存用户,这些用户之后可能会通过其他方式进行变现。所有的商业模式都遵循一个漏斗模型。你首先吸引大量用户试用你的产品,然后其中一部分用户可能会每天或每周使用一次,这些用户中又有一部分可能会付费,付费之后,他们的生命周期总价值(Life Time Value, LTV)是多少——也就是公司从用户所有的互动中所得到的全部经济收益的总和。通过这个公式,你可以计算出,比如花费10块钱购买一个用户,留存的概率是40%,留存后付费的概率是10%,付费的金额是100块钱,今天花费的购买用户的钱是否最终会回到你的口袋,因为他们中有一部分会留存,有一部分会转换为付费用户,并且他们付费不是一次性的,可能是长期的。这个长期付费的金额,如果按照今天的现值来计算,会是多少。你需要比较这个金额和你投放的成本,哪个更高。这种平衡游戏是所有从事用户增长和产品经理工作的人的重要技能。今天,一些智能小工具的投放量很大,但它们的打法是否有合理的ROI,是否能做到‘持久战’还有待观察。你投入的钱买来了一堆用户,但这些用户在一周或两周内大量流失,然后你再去买一批,再次流失。这就像你的游泳池下面有一个漏洞,不管你怎么加水,最后都填不满。 所以,我认为这是需要反思的。为什么会出现这种现象?首先,用户的认知问题,用户认为智能小助手没什么了不起,好几家都能做,不值钱也免费,这个问题大模型行业暂时不能解决,只能慢慢教育市场。第二个问题是,大家把它当作搜索引擎使用,一用就发现不如平时的搜索引擎,然后就不再使用了,用户就这样流失了。所以这是一个核心问题,我在这里再次强调,希望大家不要把它当作搜索引擎使用,否则用户流失是必然的。再往下的问题可能是产品功能还不够强大,融入的模型还不够好,用户体验还不够清晰,以及还没有一个爆发式的场景能够点燃用户的需求。因此,在零一万物,我们选择继续打造“模应一体”,不断迭代顶尖模型,认真打磨产品,直到我们看到一个TC-PMF(技术成本✖️产品市场契合度),也就是说,我们投入的钱能够带来至少是有建设性的发展,即使不能说打平赚钱,但至少说用户留存增加了,这就会给我们信心,让我们觉得也许推广的时代到了,市场教育可能会成功,应用井喷的时代可能会到来。腾讯科技:正好还想问问您做万知的首席体验官这一段时间有什么有趣的小故事可以分享吗?李开复:有朋友会提一些难题给我,有一位朋友他跟老婆吵架了,然后要写道歉信,然后我就帮他去发问,把很多他们夫妻之间的问题加到了我的prompt里面,然后写出来一封非常感人的信。当然他也做了一些修改,因为大模型不会讲细节,它是根据过去的历史去生产最高概率的文字,所以你如果跟老婆曾经有一个很细节的故事,它可能不知道,或者知道了,它可能也不会选择去用。人做一些修改还是有必要的,“人机结合”这封信,老婆看到就流泪了,然后两个人就和好了。腾讯科技:你在体验产品之后,如何给产品提建议呢?大模型时代的产品是不是和移动互联网的时代的产品有很不一样?比如改Bug这件事就有很大不同? 李开复:对,非常不同。非大模型的产品找到了一个Bug,直接改代码就修复了。现在你没有办法告诉大模型,下次不要这么回答,这是大模型的技术特点决定的。你需要收集大量的数据,然后用这些数据去重新微调它,或者用一些类似的方法把它引导到更正确的方向。虽然每一次大模型产品更新是不可能把每一个问题都修复,但大模型时代的产品修复率反而可以高速扩张。比如传统的 APP,如果有Bug,你修10次没问题,如果是100万个怎么办?修不完。但是现在大模型如果有100万个,你可以把它输进去,可能明天80万个就解决了。所以大模型时代的产品是可以schedule做大量且并进的修复和迭代。腾讯科技:最后一个问题关于您个人,媒体评价你为AI行业最年长的创业者,团队还会不会因为你的威望和经验,选择服从你?如果你犯错怎么办?李开复:作为一个CEO,我认为特别重要的是要有自我意识,即知道自己的长处和需要改进的地方。当领导团队时,如果你对某个领域特别了解,或者对事情的执行方式、公司的战略、销售、产品功能或技术有清晰的认识,你就应该告诉团队必须按照你的想法去做。因为在当前竞争激烈的市场中,我们没有时间让公司内部产生内耗,所以需要有决断力和做出决策。但如果你真的不懂某个领域,盲目做决策,走错路还不如不行动。因此,我非常清楚自己的强项在哪里,我会把我的时间花在那些只有我才能解决的重大问题上,因为没有人能替代我。这三件事情可能已经占据了我80%的时间,而对于其他七件不那么关键的事情,我希望能够清晰地授权给其他人,并下放权力和决策权,这非常重要。但在下放过程中,最好只下放给一个人,以避免内部混淆。公司的决策需要清晰可解释,让每个人都理解,公司的战略可以调整,但不能频繁变动,每次调整都必须清楚地解释。 我不仅认为自己是最年长的创业者,也是经验最丰富、见识过各种成功和失败、总结最完整的人,对自我认识也更清晰。我采用的管理方法很有弹性,一个好的管理者或CEO不是单一的,他可能擅长放权、懂技术、懂商业或有决断力,而且在正确的时间根据具体情况和环境来判断使用什么方法来领导团队。例如,在模型训练的细节上,尽管我是AI领域的专家,但我绝不会干预团队说应该使用这个算法而不是那个算法。我最多只会建议他们参考某篇论文,如果不行,我会信任他们的专业判断。在产品方面,作为首席体验官,我有更多的发言权,但我必须确保真正做决策的不是CEO,而是产品经理。产品经理自然会把CEO的意见看得很重,但正因为如此,CEO需要弱化自己的要求,避免过多干预。对于公司战略,这是我的决策领域,我会听取大家的意见和建议,然后做出判断。公司的重要人事任命绝对是我的决策,公司的发展方向、消费决策,比如租用或购买多少GPU,以及公司整体系统的策划和未来的上市计划,这些都是我需要亲自负责的。因此,我需要分清楚哪些是我必须亲自做而且我能做得最好的,这些领域其他人只需给我意见。其他事情可以由更专业的人来决定,我只需把战略讲清楚,然后把决策权下放到负责人身上。作者:郭晓静来源:腾讯科技版权声明:部分文章在推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。联系方式:[email protected]。微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章