一个大模型,一群工程师的2300天
当传感器与大模型结合,会帮你管理手机、增强网络、智能推荐……当你问它,为什么手机这么烫?它给出的不是文字回答,而是会帮你清理内存、优化电池。
总之,它会像一个真正的人类助手那样,熟练使用手机里的460多万个应用。用周围的话说,「不是要做一个具备所有能力的大模型,而是要教会大模型用你手机里的成百上千个应用」。
只是创造它的过程如同登山,他们依然走在密林中,遥望雪山之巅,以及那时隐时现的小径。
从事这样的创造,到底是什么样的心情?
找到「雨天套垃圾袋大笑的女孩」
2023年11月1日上午11点,深圳国际会展中心,上千人的会场里,所有人屏气凝神,等待一个答案。
台上的一位男士举着手机,他想找一张照片——几年前,他和妻子外出时遇上暴雨,两人都没带伞,只好向路边的保洁人员要了两个垃圾袋,套在身上挡雨。妻子在雨中「狼狈」又好笑。他抓拍了一张照片,但因为时间久远,找起来太麻烦。
男士在手机对话框里输入,「找一下在雨天套垃圾袋大笑的女孩照片」。一秒钟后,照片出现了,绑着马尾辫的妻子,身上套着黑色塑料袋,在公交车上大笑。照片封存了那个瞬间的快乐和爱意。
男士继续演示。还有一张照片,因为在户外拍摄,背景杂乱,输入「擦除路人」,马上所有路人都消失了。放大照片看,路人消失后,背景中的路面和墙面,神奇地恢复了。
执行这些操作的,不是某个人,而是一个手机智慧助手。它的名字叫「蓝心小V」。
他继续操作,让蓝心小V读论文、总结论文的主要观点;让它根据图片编辑一条朋友圈;让它做关于《三国演义》的人物关系图;让它做一份双十一的营销方案;让它根据聊天记录,创建会议日程……一秒钟,答案马上出现。
这是2023年vivo开发者大会的现场。
等待小V的答案时,台下的工程师们是忐忑的,也是骄傲的。第一排坐着一位40多岁的程序员,一张圆脸,看着还很年轻。他叫周围,是蓝心小V 的创造者之一,自称「老码农」。他的另一个身份,是vivo公司副总裁、AI全球研究院的院长。
他们的骄傲自有其原因。人们表面看到的,是蓝心小V在搜索照片、整理文字、与人对话,但背后的基础是一个大模型,是技术团队攻克的一个个世界性难题:机器如何准确理解人的复杂语义,如何拥有推理能力,如何给出精准回应,如何像人一样自然对话,接收和反馈信息。它早已不是APP,你可以把它理解成手机里一个有着人类智慧的助理。
输入一个指令,一秒钟后会得到答案,支撑它的,是周围和他的1000多位同事们,花了2300多天,建造了上千T的数据,持续改善算法,发表了70多篇论文,申请了700多项专利。才有了这短短的一秒钟。
2023年,大模型是科技领域最火热的话题。人工智能发展多年,但大模型是革命性的改变。它意味着人类终于可以将几千年的文明高度抽象,压缩成随时可被调取的知识,每个人都能使用。知识之外,更重要的是,它正逐渐接近人,拥有人类的逻辑、情感与价值观。
人天生就会思考,思考之后就是决策。但这个过程是如何发生的,是一个「黑箱」,或许是世界上最难的问题之一。几百年以来,世界上聪明的头脑们,始终在与这个问题作战。
早在17世纪,笛卡尔就思考过,人是如何做出决策,心灵又如何控制行为。1958年,被称为「计算机之父」的美国科学家约翰·冯·诺依曼,出版了《计算机与人脑》,试图做出解答,对这个话题的探索,贯穿了他的后半生。
周围和他的同伴们,也是其中的一份子。他们经历了伟大的冒险,在今天,交出了自己的答卷。
野心
这是一个漫长的故事。或许可以从2018年说起。
5年多前,2018年3月,浙江乌镇,《人物》作者采访过一次周围。当时他的职位是vivo人工智能的负责人。他在vivo工作十几年,开发过手机系统,做过智能机,那时他刚刚履新,第一个任务就是搭建vivo的人工智能团队。公司支持力度有多大,一个细节便知——给他的招人名额是1000人。
把目光拉远些,那个时刻,世界正在巨变:不久前,同样在乌镇,排名世界第一的中国棋手柯洁,输给了人工智能机器人AlphaGo。这位年轻棋手,曾在比赛中途,躲在宣传板后失声痛哭,直到裁判长找到他。这场比赛的意义太重大,它改变了全人类对科技、对未来、对自我的认知,也宣告了人工智能时代的到来。
同一年,Google的研究团队发表了一篇名为《Attention is All You Need》的文章,介绍了一种叫做Transformer 的新模型。此前的模型都只能学习小规模的数据,而这个模型,在语言方面有强大的学习能力,「可以去编码非常宏大的知识」。
普通人只能模糊地看到世界在发生变化,但作为行内人,周围和他的同事们都知道,这种变化是根本性的,他们必须参与。
vivo的创始人、总裁沈炜,叫上了所有高管,一起看了斯派克·琼斯导演的电影《Her》,电影里孤独的男人爱上了他的操作系统Samantha。之后的一年,周围和同事们,按照一个个榜单,如机器视觉、语义理解,去拜访国内外顶尖的大学,招揽人才,做出了一个人工智能助手,它的名字叫Jovi。这个名字的意思是,「Enjoy vivo's AI」,他希望vivo的用户们能享受它。
《人物》和周围的第一次见面,就在Jovi面世时。那也是他职业生涯中第一次接受媒体采访,有几分紧张,更多的是意气风发。当时我们谈到,Jovi才刚刚起步,离真正的通用人工智能距离还很远,但周围怀着信心,「半年后,一年后,它会是崭新的面貌」。
也是在那时,野心勃勃的年轻人们从各处而来。
深圳一关之隔的香港,杨苏向他供职的香港理工大学提交了辞呈,决定加入vivo。他的研究方向,是时空感知方面的智能化。我们在深圳的街头咖啡馆见面时,他穿着T恤,短发贴着头皮,有点胡茬。他语速很快,语气里有冷静和审慎,也有掩盖不住的热情。
那是职业生涯转折的时刻。杨苏至今记得,当时全面屏兴起,所有人都在期待更好的解决方案,而vivo另辟蹊径,出了带一款升降式摄像头的全面屏手机。杨苏好奇,专门去了门店,看到那么小的一个手机上,摄像头哗哗升起来,有机械的声音,「你会觉得,哇,很迷人」,「原来还有这么有追求的、创新的公司」。
职业选择当然不会因为一个摄像头就轻率改变,更重要的是他对行业的整体判断。他知道,人工智能的时代已来,但AI要很好地理解用户,只能是在手机这个载体上——手机有十几种传感器,24小时贴身跟随用户,「AI要真正发挥价值,要做助手,只有手机厂商才能做得好」。
在北京,清华博士毕业不久的陈捷安,也开始了他在vivo的工作。他是数据领域的专家,2018年前后选择职业方向时,他同样意识到,如果在一家手机公司工作,会面对几亿用户,有更大的空间,「带来不一样的增量」。和陈捷安一起入职的,还有许多位来自互联网大厂的搜索专家。
人员码好了,大家开始干活。天地广阔,有时也意味着天地荒芜,要赤手空拳、从头开始。
vivo人工智能一部的总经理肖方旭记得,他们最开始组建AI团队,具体做什么,没想得特别明白,一直在探索。训练过AI打王者荣耀、下围棋、下五子棋,有一些探索就是基于工程师们个人的兴趣,想看看能擦出什么火花。
图谱团队也是最先开工的团队之一。所有人都知道,人工智能三要素是数据、算法和算力,而数据是基础。数据库搭建是辛苦活儿,也是基础建设。陈捷安和同事们,搜集海量的中文互联网数据,做数据清洗、知识建设,最终形成所谓的知识图谱,这花的是时间和成本,考验的是人的信心和耐心。
对这群工程师们来说,那是一个满怀希望、大展拳脚的时刻。
他们畅享,要做出人工智能手机,实现「三全三自」,全场景、全连接、全交互,自学习、自索引、自建议。这是一个相当美好的理想,放在今天也毫不过时。
蓄力
但很快,聪明的头脑们就发现,技术从畅享到落地之间的路途,比想象中更远。用周围的话说,「满怀激情,但其实是碰壁了」。
何为碰壁,简单来说,就是当时的技术,无法支撑Jovi像人一样对话——它只能支持非常简单的对话,不能理解上下文,不能理解复杂的语言,不能理解一句话里带两个指令。「用户对智能的期待,是可以勉强像个人,或者像个十岁的人」,但当时是做不到的。
这也是那几年人工智能行业的普遍困境。2018年,一位科技记者曾做过测试,给当时市面上的几个智能助理,提了一个看似简单的需求:「推荐餐厅,不要日本菜」。结果助理们推荐的全是日本菜。「不要」二字,被它们一致忽略。
很多人会本能以为,既然能造出打败世界冠军的AI,那么造出处理人类日常事务的AI,肯定不成问题。但事实正好相反,「能造出在围棋上打败柯洁的AI,但却造不出能给柯洁管理日常生活的AI」。
究其根本,打败柯洁,AI只需要学习围棋,是知识积累和规则匹配。而和人自然对话,需要理解语义、上下文、逻辑,其中有深入的交流理解,复杂的询问和引导,这是一个人类还未打开的「黑盒」。
杨苏在他的领域里,也遇到了相似的难题。他本打算做的,是基于用户的时空位置,提供一些便利服务。比如用户坐地铁上下班,哪里上,哪里下,手机可以提前预判,调出地铁乘车码。但当时的技术只能做到——捕捉到用户到了地铁附近时,马上推出乘车码。所以常常会有同事来问他:「我中午下楼吃饭,路过地铁站,怎么也给我推乘车码?」那是因为手机还没有进化到能理解人类的生活——他们还在上班,中午是不能坐地铁回家的。
看到了局限,那怎么办?这是一家手机公司,在激烈的竞争中存活了近30年,务实是不变的底色。
周围和同事们很快决定,至少,他们可以继续强化人工智能技术,把它应用在手机的各个方面,让用户有更极致的使用体验。比如跟视觉有关的技术,可以改善拍照。比如语音识别,可以帮助听障群体。
张程是vivo人工智能算法的负责人,为无障碍做了很多事情。两三年前,他看到了一个新闻,有个报警电话,反复打到公安局,但却不说话,只发出呜呜呀呀的声音,后来警方通过定位找到报警人,才知道是一位迷路的听障人士。
这只是听障者生活中无数麻烦之一。听障夫妻组成的家庭,孩子从床上跌落大哭,父母会听不到。听障外卖员,送外卖很不方便。他们去走访时,一位重度听障的女孩,用手机打出了一句话给他们看,「我无能为力和健全人沟通」。
这些故事触动了他们,而他们正是掌握工具的人——通过AI声音检测的算法,可以识别周围的声音,比如孩子的哭声,门铃声,警报声,把这些声音变成信息,推送给听不见的人。
在这个过程里,人会更理解彼此。周围说,他们后来发现,虽然能用算法帮听障人士「听到」,但他们还是更习惯用手语,因为它更自然、更高效。后来他们就想,是不是能做一套手语的解决方案?这在全球范围内都没有,他们就自己做。
工程师们自学了手语,让机器识别手势,识别一段段连贯手势表达的意思。说到这里时,周围提到了南非前总统曼德拉的一句名言,「如果你用一个人听得懂的语言跟他交流,他会记在脑子里;如果你用他自己的语言跟他交流,他会记在心里。」
杨苏和同事们,也开始解决用户跟时空相关的痛点。用户第一痛,就是网络,有时网络糟糕,其实是因为手机连的基站不好,手机如果能智能选择最优的基站,问题就能解决,这个解决方案,他们做好了;另一个场景是所谓的「地铁黑洞」,地铁有些地段确实没有网络,令人痛苦,但如果用户多次经过这条路线,手机会慢慢识别,最后,它会在进入「黑洞」前告诉手机里的App,多加载一些内容;第三个场景,是乘飞机时,手机会拼命搜索网络,耗电极快,他们让手机智能识别这个场景,起飞时禁用网络,下降时迅速恢复,这一点,今天也已实现。
这些改善对用户来说是不可见的,「你做了不会有人点赞,但你不做,用户会很痛苦」。在这背后,他们做了大量的工作,研究用户的习惯、位置、偏好、场景和使用状态。
远在北京的vivo图谱团队,陈捷安和他的同事们,五年里始终在收集数据。巨大的专家团队、无数轰鸣的机器、昼夜不停息的爬虫系统,将中文互联网上所有的信息清晰、筛选,整理,每月更新。截止到此刻,他们积攒了2000多T的数据,清洗出来15T数据用于模型训练。当数据大到一定程度,其实已经很难类比,15T数据相当于2000多万本《三国演义》,相当于2.5个国家图书馆......
这样的笨功夫,当时做得辛苦,但在之后被证明,所有苦功都没有白费。
All in
转变真正到来的时刻,周围是在他家的书房里体验到的。
大概一年前,周围在自己家写代码。他是一位老码农了,管理几千人,写代码早已不是工作,而是周末的消遣。说到这里,他语气轻快起来,「星期六、星期天,我最开心的就是,哇!今天晚上我可以搞大半个通宵。」
同事们都不知道,他自己搭服务器,一到长假,就一头扎进去「疯狂更新算法」。Kaggle是一个全球顶尖的机器学习竞赛网站,全球的程序员在这里竞赛,做同一个任务,竞争排名,算法好,排名就上升,他们称之为「爬天梯」,周围也会参加。在他看来,写代码依然是最快乐的事,程序能把想要的东西变成现实,能在竞赛中赢过别人,这是最直接的反馈,有最强烈的多巴胺的刺激。
去年冬天,ChatGPT推出,他开始用ChatGPT和GitHub(全球最大的程序员论坛)的一个大模型来写代码。当他输入指令,说要写一个框架,「直接蹦蹦蹦就写完了」,看到那段代码,周围很惊讶,「当时我就觉得,它相当于一个超强的团队」。放在以前,有些算法他没信心能写完,或者要花几个月,有了大模型,他的程序已经运行了几个月,「对生产力是成百倍的提升」。
ChatGPT的出现,也在全球范围内引起震动。推出短短两个月,超过一亿人使用。四个多月后GPT-4发布,它被认为是通用人工智能的早期版本。用户可以问它所有领域的问题,跟它进行无数轮的问答,会体验到与人类交谈的感觉。
周围和同事们意识到,如果是2018年的Jovi是他们的美好想象,那么这一次,时间真的到了。
2023年一开年,大家关上门,高强度讨论了两个月,内部最终达成共识:ChatGPT就像蒸汽机,是划时代的改变,是一个带来巨大生产力提升的工具,他们必须投入。他们一起去了北京和杭州,国内一流的大模型团队,都看了一圈,有了更多的确信——做这件事,他们的思考和技术都不比别人差。
另一个需要解答的问题是,已经有了这么多大模型,为什么vivo还要自己做?国外的大模型,包括openAI在内,有的不开源,有的并不适合国内的情况,有的不适合vivo的产品,国内的大模型,又还没有到成熟的阶段,从成本上来说,也是巨大的挑战。想来想去,没得选,必须自己做。并且,All in。
我问周围,该怎么理解All in?他说,「战略上唯一的、完全的选择」。1000多名员工,直接转到大模型方向,不那么重要的事情全部停掉了。
此前的蓄力,在这一刻爆发出能量——五年来积累的所有数据、知识图谱,这是大模型的基础;五年来他们紧紧追踪的最新算法、发表的几十篇顶会论文、700多项专利,是技术支持;如果说大模型是大脑的话,他们在图像、声音、传感器等等方面的积累,就是让手机长出了四肢。
他们创造出的大模型,本质上是一个压缩了人类几千年知识的「字典」,熟知人类的历史、文化和文明,无论你问出什么问题,它都会给出答案。它的珍贵之处还在于,拥有与人类相似的逻辑、情感和价值观,它能理解语言,有逻辑推理能力,有表达生成的能力。与2018年的Jovi相比,如今的蓝心小V,更像一个真正意义上的「智慧助手」。
用户的需求复杂多变,他们也必须随之而变,周围描述了他们的设计:用户最简单的需求,比如问个天气,让小V做个文档总结,用10亿的大模型,不上云端,在手机内就可以完成,快且安全;再复杂一些的场景,比如多轮对话,比如用户要出差,涉及到如何订票、天气、行程等等环节,他们又做了70亿的大模型;还有更复杂的任务,比如解数学、物理题,让大模型写代码,再比如专业的法律和医学知识,这需要调用巨大的计算资源,所以,他们继续做了700亿、1300亿和1750亿的大模型。
今年夏天,他们试着让初具雏形的大模型去打榜,很快就在中文大模型评测榜单C-Eval上拿到了第一名。
C-Eval榜单,被认为是国内最权威的中文大模型评测榜,题库覆盖了人文、社科、理工等等方向,考验知识和推理能力,且所有题目都是经过处理和人工清洗的。
看到这个排名,大家心里的石头落了地。
前路
当然,这不是一篇完全理想主义的文章,不是在描述一个顺遂的童话故事。实际上在采访时,周围花了一半的时间在讲述,大模型依然不完美,它依然有小瑕疵。
今天我们能看到的vivo大模型,能在日常生活中完成许多功能,比如知识的传授,手机的管理,根据后台数据,现在大家使用小V助手最多的场景,是处理照片、写诗、画画、闲聊,这些场景已趋于成熟。
但作为一个1.0版本的大模型,它也同样在面对行业的普遍困境——所有人都在说的,「大模型的幻觉」。所谓大模型的幻觉,一是它的逻辑思维能力还并不强,二是有时它会「一本正经地胡说八道」、「它不知道自己不知道」。
逻辑思维能力,一个简单的例子就是「鸡兔同笼问题」,人类初中生可以解答,但机器不一定能做好,关键就在于思维链是否完整。这个问题推而广之,会出现在生活的各个时刻:比如办公室的窗边有一盆绿植,边上有个自动喷水的水桶,如果水桶坏了,会出现什么情况?人类明白,水桶坏了无法浇水,植物会渴死。再比如口袋里装了三颗糖,有大有小,口袋破了洞,会出现什么情况,人类会先问,洞有多大?如果小的话,可能小糖掉下去,如果洞够大,三颗糖都掉下去。
这其中的逻辑推理过程,怎么让机器解决,周围觉得「其中还有巨大的空间」,这是内部的「一号问题」。
另一个则是「胡说八道」的问题。人类社会的知识如此广阔,迅速变化更新,数据永远都不够新、不够全、不够深,在更新数据、增强搜索能力的同时,他们在某些议题上的处理方式,依然有vivo务实的风格:当用户提出一个非常专业的问题,比如医学上的某种疾病和症状,大模型会建议,去专业的医学机构寻求资源。
周围坦诚地谈论这些问题,但也有一种笃定和确信——大模型所带来的生产力的提升,毋庸置疑,他们走在一条正确的道路上,遇山就开山,遇水就搭桥。
他的同事杨苏正在负责的,就是一个更高级的2.0版本,一个基于大模型的智能体。
他正试图攻克的核心问题,是「上下文」。「上下文」有很多含义,可以是交谈中的上下文。比如用户提出一个要求,「请继续讲昨天的故事」,这背后就有一系列问题,昨天讲的是什么故事?讲到了哪里?这个过程需要存储记忆、检索记忆,要有对文字的理解。这是人类生来就有的能力,他们想把它加诸机器之上,机器要能听懂人类,这个过程很关键。
「上下文」,也可以理解为对环境的感知。当我们跟ChatGPT聊天,我们输入文字,它也回复文字。但手机的好处就在于,它有几十个传感器——是的,很多人未曾了解,手机的前后置摄像头、GPS定位系统、WIFI功能、陀螺仪、加速器、重力传感器,始终像海绵吸水一般,感知你的状态,你是在走路还是骑车、坐车,在公司、地铁或室外,当你接起电话的时候手机会息屏,是为了防止误触。
当传感器与大模型结合,会帮你管理手机、增强网络、智能推荐……当你问它,为什么手机这么烫?它给出的不是文字回答,而是会帮你清理内存、优化电池。
总之,它会像一个真正的人类助手那样,熟练使用手机里的460多万个应用。用周围的话说,「不是要做一个具备所有能力的大模型,而是要教会大模型用你手机里的成百上千个应用」。
只是创造它的过程如同登山,他们依然走在密林中,遥望雪山之巅,以及那时隐时现的小径。
从事这样的创造,到底是什么样的心情?
杨苏的感受相当复杂。他说,最开始是怕公司不愿意做,他觉得自己必须参与,那是一种作为技术人员,本能的使命感。但真正开始做了,会有对未知的恐惧,有对成功的渴望,还有很久未体验过的新鲜感……
而周围呢,从前他总是期待周末和长假,他可以写代码、打游戏,得到彻底的放松。但现在这些他都不做了——因为做大模型带来的挑战、刺激和快乐,超过了任何事情。
在工作群里,他盘点过这条长路:2017年过完年,开始组建AI团队,2018年3月,Jovi发布,同一年,操作系统团队成立。六年过去了,「算下来,2300多天了,人生不过30000天不到。」
本质上,这是一个关于梦想实现的故事,一群人找到了自己热爱之事,坚定地投入自己的时间与生命。
5年前的采访中,周围讲过自己的一个设想:当时他的一位家人因病晕倒,让他开始思考,如果手机可以通过摄像头、麦克风等传感器,感受到人的心跳、心率,咳嗽声和呼噜声,「完全可以提醒你提前就医」。在当时,这是他描述的激动人心的未来。
就在今天,这个未来,他们亲手实现了。在大模型的基础上,他们做了一个「家人健康管家」功能,手机不仅能检测人的健康数据,发送用药提醒,还能把异常数据及时传给家人。甚至在老人的手机不小心装了恶意运用时,子女在远方,也能看到,可以远程卸载。
这就是他们想要的大模型,是助手,是家人,偶尔治愈,常常帮助,总是安慰。
(文中杨苏、陈捷安、张程为化名。)
亲爱的读者们,不星标《人物》公众号,不仅会收不到我们的最新推送,还会看不到我们精心挑选的封面大图!星标《人物》,不错过每一个精彩故事。希望我们像以前一样,日日相伴。
微信扫码关注该文公众号作者