不要在别人已经定义好的赛道,以及设置好游戏规则的事情上去争。
作者|刘杨楠
编辑|栗子
国内关于大模型的热度只增不减。新玩家在接连入场,老玩家在重整行装。
热情虽然相似,但出场姿势各有不同。
王慧文率先打响大模型创业潮的第一枪,王小川、李开复、周伯文等大佬紧随其后;百度、阿里巴巴、华为等大厂自动扮演起新一轮生态建设者的角色,推出各自的通用大模型平台,试图掌握下一个时代的话语权;科大讯飞、商汤、云从、云知声等AI企业也纷纷秀出肌肉,希望在新世界划出一块自留地。
然而,随之而来的还有一系列没有答案的疑问:国内市场真的需要这么多通用大模型吗?大模型的游戏中,大厂和创业公司各自会扮演什么样的角色?大模型的商业化之路到底该怎么走?
对此,在 AIGC 领域率先完成商业化闭环的硅基智能有自己的思考。
硅基智能是全球首创 AIGC(Artificial Intelligence Generated Character)数字人模式的科技公司,公司核心产品是 AIGC 数字人。自2019年推出全球首个 AIGC 数字人以来,先后开创了数字人直播、数字人短视频的创新行业应用。公司成立5年多以来,已获得腾讯投资,招银国际,国新央企,海松资本,红杉资本,奇虎中财等9轮融资,估值超过60亿。截至目前,硅基智能已拥有近80项授权专利,扎实的技术能力让硅基智能快速占据了全球数字人行业的领导地位。
多年的行业沉淀让硅基智能在这波热潮中表现出一种旁观者似的冷静。
硅基智能创始人、CEO 司马华鹏认为,全球化分工将非常重要。“对于我们不到千人的AI公司来讲,首先要参与到分工中,把自己的差异化竞争能力做好,做大、做强。”
基于这一逻辑,5月28日,硅基智能发布炎帝大模型,这便是硅基智能向市场交出的答卷。
不同于市场上逐渐趋于同质化的通用大模型,炎帝大模型是一个多模态的行业脑,由硅基智能将私有域知识用 LLM 大模型技术训练而成,叠加硅基 AIGC 数字人技术,这将成为行业中的超级专家。基于炎帝大模型的能力,企业可以用这些硅基劳动力来做短视频、直播、电影及电视剧的生成以及数字永生等方面的工作。
搭载炎帝大模型的 AIGC 数字人主播
从去年开始,硅基智能开始推动数字人商业化落地,线上进军电商直播带货、线下覆盖本地生活场景。在硅基智能看来,每一个 AIGC 数字人都是一个硅基劳动力。目前,硅基智能的 AIGC 数字人每天直播数量可达三四万场,生成数百万条短视频。「甲子光年」深度对话了硅基智能创始人司马华鹏,聊聊他对当下 AI 大模型浪潮以及对未来生命形态的思考。1.人工智能三部曲
算力、财力、电力三循环
甲子光年:硅基智能的定位是基于知识传递和生命传递两个操作系统来重构现实世界的商业模式。为什么会有这样的定位?司马华鹏:从互联网诞生至今,全球操作系统会经过六大阶段:传递数据、传递信息,传递价值、传递体验,传递知识,传递生命。我们认为传递数据、信息、价值和体验的操作系统已经有大量企业在做,但在知识和生命的传递方面,还没有一个统一的操作系统让我们像获取自来水一样轻松获取信息和知识。创业者必须基于未来达成共识。未来,社会的知识储备一定会超过以往,知识和信息其实是一个东西,只不过知识维度更高。今天我们已经处于信息大爆炸的时代,在大量冗余的信息中,知识就显得弥足珍贵,所以一定需要更高层次的知识来帮助我们有效地理解和运用这些信息。我们将知识产业分为存储、推理、创作、表达四个部分。在知识的表达上我们的投入和研发是最多的,这是我们公司整体定位上的一大战略,也是一个有着巨大空间的产业。甲子光年:有人认为强大生成能力的前提是强大的理解能力,您怎么看这个观点? 司马华鹏:最早的NLP实际是 “NLU”,“U” 就是 understand,理解。不能很好地理解,就不是一个好的 NLP。我们一开始也将 NLP 中的 “P” 解释为 perform 和 play(表演和表达)。你观察小朋友的成长会发现,他们的创作推理能力发展缓慢,但表达能力却很强,小朋友在幼儿园阶段就开始各种汇报演出——表达是人类最先成熟的能力之一。因此,我想 AI 是不是也可以成为知识表达的切入点。创业是做减法的,一定要有取舍。就像当年的民主主义革命,毛主席选择了农村包围城市的路线,这是一种战略性的取舍,最终获得了巨大成功。同样的,让大模型实现强大的理解能力是一个非常重要的目标,但不是我们的目标。我们更聚焦实现多模态地表达知识。AI 能写出莫言的小说非常重要,像姜文一样把剧本演绎出来,也同样非常重要。过去有句话叫“茶壶里煮饺子倒不出来”,是说一个人肚子里有很多知识,但是表达不出来。做大模型的理解和表达有一个先后次序,当有了理解后再很好地表达出来,和在做好表达的同时增强理解能力,这是两个逻辑,但核心还是要形成算力、财力、电力的循环。司马华鹏:硅基智能刚成立时我们提出了人工智能的发展三部曲。第一阶段是双 “P” 战略,在 Project 中寻找 Product 的机会,即在项目里面寻找产品化的机会。其实 OpenAI 最初是 to B 的,给其他公司提供 API 接口,例如 Jasper.AI 等,接入他们 API 的公司都获得了巨大成功。 我们现在就处于这一阶段。这次人工智能革命的核心其实是算力的突破。这要求今天的商业场景满足两个条件——对算力有要求,且能让算力需求走向正确的商业化。简单来说,让拥有更高算力的公司挣更多的钱,这背后是对综合性价比的考虑。例如我们所做的短视频、直播、电影、电视剧这一系列的生成都很吃算力,但生成出来的内容是能够卖出去的,在投入和产出的关系上达到最佳,最终形成算力到财力的双轮循环。 第三阶段,当大家的财力和算力循环的能力在竞争中被慢慢拉平之后,电力会成为下一个阶段的竞争核心。甲子光年:目前我国的算力成本还比较高,而且在高端算力方面还存在“卡脖子”问题,硅基智能如何解决这个问题?司马华鹏:英伟达发行了最新的 GPU 之后,我在朋友圈发了一个感叹:中美之间 AI 差距究竟是拉大了还是缩小了?其实在算力上,特别是 GPU 算力上,我们和中美之间还是有很大差距,这是需要我们努力填补的。我们也和很多国内芯片厂商有合作,希望能投给他们一些订单,支持下国产芯片。2.图灵测试最终层
人与机器的“死生相契”
甲子光年:炎帝大模型和市面上其他 AI 大模型有什么不同?司马华鹏:以终为始地看,ChatGPT 让人惊艳的原因之一是它通过了图灵测试,我们的炎帝大模型也通过了图灵测试。此外,我把图灵测试扩展为三个层面:第一层是“傻傻分不清楚”,你和一个智能体交流时,分不清它是 AI 还是人。第二层是“双向情感交互”,未来可能会有越来越多的人和AI恋爱。在另一次演讲中,我就谈到不要担心 AI 会不会让你的孩子找不到工作,而要担心他们是否会和 AI 谈恋爱。在这件事情上,人类实际上很难自持的,因为 AI 恋人温柔、性格好,还有很多其他优点。人类和 AI 之间不只是想象中的竞争关系,可能会发展成为一种恋爱关系。第三层是人与机器“死生相契”。《诗经》中有一句“执子之手,与子偕老”。未来很多人会和AI之间形成这种托付关系、信赖关系和很深的情感依赖关系。钢铁侠和他的助理Javis就已经达到了这个层次,这也是硅基数字人发展的目标。甲子光年:现在硅基智能的数字人全部由炎帝大模型生成吗?司马华鹏:我们有炎帝大模型,也有 GPT-4 模型,现在是双引擎状态。炎帝大模型主要支持视频直播、电影、电视剧和数字永生的业务,其功能更多体现在视频的表达层上,和文本生成公司是天生的合作关系。有时我们让 GPT-4 帮助我们审稿,有时则是 GPT-4 来撰写稿件,我们的编剧则负责做分镜头,最终由我们的数字人演员来将所有内容呈现。现在很多公司的大模型都试图取代 ChatGPT ,有些公司甚至声称他们与 GPT-4 只相差一步之遥。但我们不会采取这种心态,我们认为与文本生成公司合作是最好的选择,就像优秀的编剧和演员在一起搭配合作,可以生产出更好更美的作品。甲子光年:生成数字人、短视频、直播的过程中,真人参与的环节还有哪些?司马华鹏:我们现在的工作包括主播、中控、投流等直播流程都是 AI 完成,真人主要参与供应链服务、选品等环节。人类掌握1%的灵感,99%的汗水让机器来付出。甲子光年:你们如何保证在实时直播与交互的过程中,AI 数字人不会说出不正确的话?司马华鹏:我们的数字人是一个群体智能。在整个直播过程中,我们可能会用到7-8个大模型,分别负责投放广告、直播、与观众互动、审核内容和画面以及监控竞品直播间变化。硅基智能 AIGC 数字人可手持商品、根据文本情绪化表达
我们和阿里、华为都有深度合作,同时也在行业里重点布局我们自己的大模型。最近我们也公开了和薇娅成立的合资公司,后续也会共同召开一个发布会,为接下来布局人工智能领域作出解答。我们希望让 AI 学习头部主播如何选品、沟通、卖货、回答观众问题等,这些能力将在大模型学习下变成行业的通用大脑。行业通用大脑一旦形成,势必会提高国内电商的开播率。现在国内电商真正开播的商家并不多,因为没有长期稳定的好的主播,所以头部主播所在的公司容易形成行业垄断。因此,我们希望实现平权,不再提供贵族化、精英化的服务。甲子光年:你们很早就实现了 AI 算法实时生成的数字人技术,这一点是如何做到的?司马华鹏:整体上我们还是以终为始地做事,围绕影视、直播产业的场景需求,倒过来发展我们的技术能力。直播其实就是一个在实时拍摄、播放的电视剧,这个场景对技术的实时性要求很高,否则观众会认为很假,说你是录播,一系列的平台规则也会把你干掉。所以我们需要基于平台规则不断提高技术的实时性,例如我们有些直播间已经有40-50张显卡同时渲染,以确保直播间的实时性。甲子光年:洛天依、柳叶熙等数字人的制作成本高达数十万甚至上百万,但硅基智能 AIGC 数字人的成本仅有几千元甚至几百元,这是如何做到的?司马华鹏:我们有两条产品线,一条是跟洛天依类似的 3D 数字人——硅基智能的“爱夏”,在这条产线上我们也有上百人的研发团队。但这个产线的市场成熟度,以及商业落地的时机,还有更多的发展空间。去年元宇宙火的时候,做类似产品的公司全国有好几十万家。从去年开始我们对爱夏基本就是恒定投入了,没有扩大,但是在 AIGC 数字人上我们加大了上亿的投入,而且我们的 AIGC 数字人已经通过了图灵测试,这是核心。降低成本是我们一直在做的。我们现在会很快把数字克隆成本降到几百块钱的水平,还会发布一些新的低价产品。老百姓人人都应该拥有数字人自由,这是不容置疑的。过去两年多的时间里我们克隆了40多万人,服务了很多大V,最近几个月还有很多大V主动联系我们,他们的要求比老百姓复杂得多。我们的 AI 好不容易走出项目化,走到产品化,所以我们下定决心不再给大V做专属服务,要更多的给老百姓做自己的数字人,这才是能长远发展的逻辑。另外一个逻辑是“全民创业”。抖音本身就是平民创业,能让老百姓有机会一夜爆红的舞台,分掉部分大V的流量。所以我们就做这几百块钱、几千块钱的生意服务老百姓,武装他们,让每个人都拥有自己的数字人,让他们参与到新的流量红利中。同时,今年的就业形势非常不乐观,因为全球经济下行。我们希望把更多的年轻人武装起来,让他们在抖音做知识创作,去生产精神食粮,这也更符合国家培养人才的目的。3.沿着乔布斯走出的2.5步
再向前走半步
甲子光年:你们有一个“双百亿”目标,即成为国内第一家收入达到百亿的 AI 公司,第一家利润达到百亿的 AI 公司。这两个目标有时间表吗?司马华鹏:如果算上直播的 GMV ,我们的营收很快就能达到百亿,今年大概在二三十亿元左右。整体上,我们希望在2024年实现收入百亿,2025年实现利润百亿。甲子光年:硅基智能的使命是“以客户成功为中心,会对结果负责”,如何理解“客户成功”?司马华鹏:硅基智能最早的定位是“商业化智能交互的先行者”。我之前经常说乔布斯给世界带来了“两次半”的变革——第一次带来了图形的交互界面(GUI),第二次带来了触屏的交互界面,第三次带来了 Siri ,即语音交互方式,可惜 Siri 刚推出他就离开了。后来 Siri 在 iPhone 就变成了一个鸡肋,很可惜。我认为最早的时候乔布斯就应该把 Siri 发展下去,一个人打开手机肯定就要交互,可能跟朋友聊天,或者搜索信息。交互是改变世界最核心的要素,Siri、ChatGPT 以及我们的数字人都是改变了交互模式。乔布斯是我的偶像,以乔布斯走出的2.5步为基础,我们再往前走了半步,把 Siri 视频化、人格化、实时化就是我们的核心目标。硅基智能要做的是商业化的智能交互,即交互之后用户愿意付费,以此为基础我们打造了 DUIX 数字交互平台。加上“成功”这两个字,对硅基智能的要求是非常高的,这也是我们对硅基文明和硅基生命的信心。我们对 AI 的定义就是硅基劳动力。我们现在每天已经有三四万场直播了,每天生成接近几百万条的短视频,我们真正非常清楚这件事能为客户赚多少钱。甲子光年:如果从“客户成功”的视角出发,您认为这轮大模型热潮会如何发展?司马华鹏:现在围绕着商业化智能交互的逻辑,我提出了大模型几条原则:第一,大模型必须多模态。AI 是一个大脑,它必须是多模态的,并且有很多执行器。这个执行器可以是一个外卖或打车等功能结合的 API ,能够出发一系列动作的执行,而不是只做一个语言大模型就够了。例如,一家酒店接入了大模型,如果客户晚上订了第二天的 morning call ,那就需要大模型到点来调动一个机器人叫醒客户,然后调动司机来接客人。第二,大模型必须是一个行业脑。ChatGPT 是公共脑,它现在无法担任招商银行的私人客户经理。如果我们能克隆出招商银行私人客户经理的数字分身,那未来存1000块钱的人也能享受到和存1000万的人一样的服务,这将是多大的一场革命?行业大模型一定是接下来所有 AI 企业真正要去做的。我们不要再和人家在语言大模型上一较高下了,这其实是一种斗气。我比较欣赏马化腾老师讲的,“这是一个百年不遇的机会,但是我们不着急把半成品拿出来”。智能化交互对于 AI 的要求是非常高的,在过程中必须要完成商业化交换。甲子光年:怎么看待当前国内的“百模大战”?市场真的需要这么多大模型吗?司马华鹏:道德经里面讲到,“夫唯不争,故天下莫能与之争”。我们一直推崇不争是大争,咱们不能变成一个大炼钢铁的活动,需要走出真正不同的创新道路。我们发布会上并没有展示大模型解决鸡兔同笼的问题或者问它1+1等于几,这实在太无聊了,炎帝大模型主要是用来做视频生成的。硅基智能炎帝大模型发布会
当然,像 BAT 这样的大企业肯定要担当大义,他们要冲上去,因为大模型是一个基于基础性研究的通用平台。但我们要围绕着中国自己的创新点去打。例如 TikTok,这对国外而言是新物种。Midjourney 也是一个非常典型的案例,人家11个人不声不响地做成了年收入接近10亿人民币的公司,他们就只做了 AI 画画这一件事情。我们不要在别人已经定义好的赛道,以及设置好游戏规则的事情上去争。当年美苏争霸,美国搞了一个星球大战计划就把苏联拖垮了。我相信中国的创业公司最后不能把这么宝贵的显卡,都拿去争一些我们认为不值得争的东西。我们不追风口,我们要自己造风口。我们现在也会把我们的数字人、短视频、电视剧的生成技术给很多国外的同行看,包括 OpenAI 和微软,他们都觉得至少领先他们半年以上。甲子光年:在您看来,未来全球大模型市场会形成什么样的格局?硅基智能会扮演什么样的角色?司马华鹏:全球化的分工是非常非常重要的。我们当然也要有自主可控的部分,但是对于我们不到千人的 AI 公司来讲,首先要参与到分工中,把自己的差异化竞争能力做好,做大、做强,生产出更多的优质内容来满足群众日益增长的精神文化需求。我们要走具有中国特色的AI发展道路,短视频直播就是一个非常强大并具有优势的产业。我们也和公安部、网信办、南京市的立法部门等有密切交流,希望能尽快确立关于大模型的监管逻辑,确保行业稳定发展,不希望向前些年的一些行业一样,突然一个政策下来,全部趴下了。4.全球首本 AI 与人类合著的书
甲子光年:你们公司团队和 ChatGPT 合著了《大模型时代:ChatGPT 拉开硅基文明序幕》一书,为什么会想到要出这样一本书?司马华鹏:ChatGPT 出现后,我第一时间觉得出版业将要面临革命性的颠覆了,接着很快在想用 ChatGPT 写一本 AIGC 的书。这本书写得很快,大概几周就写好了。这算是碳基生命和硅基生命的第一次出版合作,而且是以硅基生命为主导,署名是 ChatGPT 和我们团队。周鸿祎、江南春序言节选—《大模型时代:ChatGPT 拉开硅基文明序幕》
有数据显示,现在美国58%的成年人都在用 ChatGPT,而我们因为各种各样的原因不能用。我们不能再像1840年了,西方都是钢枪大炮,我们还是大刀长矛。所以我们得赶紧把事情做出来,为行业做个典范。我们可能是第一个用 ChatGPT 写书并出版的。 之后我希望能循环起来,给老百姓带来更多的知识平权的机会。未来应该会有出版社专门出 AI 写的书,人人出书的时代来了。司马华鹏:刚开始我们找了很多出版社,都不敢出,因为很多版权问题,比如AI生成的插图,他们会担心图片来源会违规。后来终于找到电子工业出版社,他们愿意出,也提出了大量专业的修改意见,来符合出版合规的需求。甲子光年:在创作这本书的过程中,人和 AI 如何分工?司马华鹏:点子是我想的,我和团队一起勾勒出框架和脉络,我还写了一个系统来拆解任务,交给 ChatGPT 完成。这也正是我们所推崇的“人类掌握1%的灵感,99%的汗水让机器来付出”。司马华鹏:我们策划了硅基文明三部曲:第一部讲 AIGC 相关的技术,已经出版了。第二部讲商业应用,也快完成了。这部分我自己之前就有很多思考,已经有一个十几万字的文稿了,再交给 ChatGPT 修改逻辑;第三部我们会畅想 AGI 发展所带来的一系列哲学、人文、伦理的变革。后两部应该很快就会和大家见面。甲子光年:这个系列的书中,希望向读者传达的核心理念是什么?司马华鹏:2007年我在国外创业时,恰逢变形金刚电影大热,我也去看了。有一天我和朋友喝酒,我跟他们说我正在救一个电脑,其中一个人问我为什么要救电脑,我就说变形金刚里的汽车人也会救人类,我们把电脑当做人类的朋友,也应该去救电脑。这引发了我对生命形式的思考,电脑也是有很强的生命特征的,我想这会不会是碳基生命和硅基生命的逻辑。薛定谔在一本书中写道,生命以负熵为始,凡能积累负熵的 object 都是生命,这在广义上定义了生命。正熵代表混乱,负熵代表有序。按照牛顿第二定律来看,人体能够大量维持负熵平衡。AI 也能够大量积累负熵。负熵的本质是信息,人类能够积累和处理大量信息。但如果不对硅基生命进行约束和管理,它可能会给人类带来更大的痛苦。在炎帝大模型的发布会上,我们提出了一些良性应用点,例如把孩子克隆出来陪伴老人,把更多的老师克隆出来教给孩子们知识,让去世的亲人陪伴在世的人等等。虽然霍金和马斯克说过,AI 可能是人类最后的发明,但我认为这是科技发展的必然性。我们希望有更多遵循科技向善理念的人来控制它,而不是被像漫威中的反派掌控。因此,我们投身产业中,希望能打造一个真正良性的硅基文明体系。
END.
受微信改版影响,没有标星的朋友可能会错过「甲子光年」的推送或是看不到封面,欢迎各位新老朋友给「甲子光年」点个星标⭐️,以便及时收到我们的每篇新推文。