一个大模型，一群工程师的2300天

公众号新闻

2023-11-03 10:11

当传感器与大模型结合，会帮你管理手机、增强网络、智能推荐……当你问它，为什么手机这么烫？它给出的不是文字回答，而是会帮你清理内存、优化电池。

总之，它会像一个真正的人类助手那样，熟练使用手机里的460多万个应用。用周围的话说，「不是要做一个具备所有能力的大模型，而是要教会大模型用你手机里的成百上千个应用」。

只是创造它的过程如同登山，他们依然走在密林中，遥望雪山之巅，以及那时隐时现的小径。

从事这样的创造，到底是什么样的心情？

文｜金钟

编辑｜李栗

找到「雨天套垃圾袋大笑的女孩」

2023年11月1日上午11点，深圳国际会展中心，上千人的会场里，所有人屏气凝神，等待一个答案。

台上的一位男士举着手机，他想找一张照片——几年前，他和妻子外出时遇上暴雨，两人都没带伞，只好向路边的保洁人员要了两个垃圾袋，套在身上挡雨。妻子在雨中「狼狈」又好笑。他抓拍了一张照片，但因为时间久远，找起来太麻烦。

男士在手机对话框里输入，「找一下在雨天套垃圾袋大笑的女孩照片」。一秒钟后，照片出现了，绑着马尾辫的妻子，身上套着黑色塑料袋，在公交车上大笑。照片封存了那个瞬间的快乐和爱意。

男士继续演示。还有一张照片，因为在户外拍摄，背景杂乱，输入「擦除路人」，马上所有路人都消失了。放大照片看，路人消失后，背景中的路面和墙面，神奇地恢复了。

执行这些操作的，不是某个人，而是一个手机智慧助手。它的名字叫「蓝心小V」。

他继续操作，让蓝心小V读论文、总结论文的主要观点；让它根据图片编辑一条朋友圈；让它做关于《三国演义》的人物关系图；让它做一份双十一的营销方案；让它根据聊天记录，创建会议日程……一秒钟，答案马上出现。

这是2023年vivo开发者大会的现场。

等待小V的答案时，台下的工程师们是忐忑的，也是骄傲的。第一排坐着一位40多岁的程序员，一张圆脸，看着还很年轻。他叫周围，是蓝心小V 的创造者之一，自称「老码农」。他的另一个身份，是vivo公司副总裁、AI全球研究院的院长。

他们的骄傲自有其原因。人们表面看到的，是蓝心小V在搜索照片、整理文字、与人对话，但背后的基础是一个大模型，是技术团队攻克的一个个世界性难题：机器如何准确理解人的复杂语义，如何拥有推理能力，如何给出精准回应，如何像人一样自然对话，接收和反馈信息。它早已不是APP，你可以把它理解成手机里一个有着人类智慧的助理。

输入一个指令，一秒钟后会得到答案，支撑它的，是周围和他的1000多位同事们，花了2300多天，建造了上千T的数据，持续改善算法，发表了70多篇论文，申请了700多项专利。才有了这短短的一秒钟。

2023年，大模型是科技领域最火热的话题。人工智能发展多年，但大模型是革命性的改变。它意味着人类终于可以将几千年的文明高度抽象，压缩成随时可被调取的知识，每个人都能使用。知识之外，更重要的是，它正逐渐接近人，拥有人类的逻辑、情感与价值观。

人天生就会思考，思考之后就是决策。但这个过程是如何发生的，是一个「黑箱」，或许是世界上最难的问题之一。几百年以来，世界上聪明的头脑们，始终在与这个问题作战。

早在17世纪，笛卡尔就思考过，人是如何做出决策，心灵又如何控制行为。1958年，被称为「计算机之父」的美国科学家约翰·冯·诺依曼，出版了《计算机与人脑》，试图做出解答，对这个话题的探索，贯穿了他的后半生。

周围和他的同伴们，也是其中的一份子。他们经历了伟大的冒险，在今天，交出了自己的答卷。

野心

这是一个漫长的故事。或许可以从2018年说起。

5年多前，2018年3月，浙江乌镇，《人物》作者采访过一次周围。当时他的职位是vivo人工智能的负责人。他在vivo工作十几年，开发过手机系统，做过智能机，那时他刚刚履新，第一个任务就是搭建vivo的人工智能团队。公司支持力度有多大，一个细节便知——给他的招人名额是1000人。

把目光拉远些，那个时刻，世界正在巨变：不久前，同样在乌镇，排名世界第一的中国棋手柯洁，输给了人工智能机器人AlphaGo。这位年轻棋手，曾在比赛中途，躲在宣传板后失声痛哭，直到裁判长找到他。这场比赛的意义太重大，它改变了全人类对科技、对未来、对自我的认知，也宣告了人工智能时代的到来。

同一年，Google的研究团队发表了一篇名为《Attention is All You Need》的文章，介绍了一种叫做Transformer 的新模型。此前的模型都只能学习小规模的数据，而这个模型，在语言方面有强大的学习能力，「可以去编码非常宏大的知识」。

普通人只能模糊地看到世界在发生变化，但作为行内人，周围和他的同事们都知道，这种变化是根本性的，他们必须参与。

vivo的创始人、总裁沈炜，叫上了所有高管，一起看了斯派克·琼斯导演的电影《Her》，电影里孤独的男人爱上了他的操作系统Samantha。之后的一年，周围和同事们，按照一个个榜单，如机器视觉、语义理解，去拜访国内外顶尖的大学，招揽人才，做出了一个人工智能助手，它的名字叫Jovi。这个名字的意思是，「Enjoy vivo's AI」，他希望vivo的用户们能享受它。

《人物》和周围的第一次见面，就在Jovi面世时。那也是他职业生涯中第一次接受媒体采访，有几分紧张，更多的是意气风发。当时我们谈到，Jovi才刚刚起步，离真正的通用人工智能距离还很远，但周围怀着信心，「半年后，一年后，它会是崭新的面貌」。

也是在那时，野心勃勃的年轻人们从各处而来。

深圳一关之隔的香港，杨苏向他供职的香港理工大学提交了辞呈，决定加入vivo。他的研究方向，是时空感知方面的智能化。我们在深圳的街头咖啡馆见面时，他穿着T恤，短发贴着头皮，有点胡茬。他语速很快，语气里有冷静和审慎，也有掩盖不住的热情。

那是职业生涯转折的时刻。杨苏至今记得，当时全面屏兴起，所有人都在期待更好的解决方案，而vivo另辟蹊径，出了带一款升降式摄像头的全面屏手机。杨苏好奇，专门去了门店，看到那么小的一个手机上，摄像头哗哗升起来，有机械的声音，「你会觉得，哇，很迷人」，「原来还有这么有追求的、创新的公司」。

职业选择当然不会因为一个摄像头就轻率改变，更重要的是他对行业的整体判断。他知道，人工智能的时代已来，但AI要很好地理解用户，只能是在手机这个载体上——手机有十几种传感器，24小时贴身跟随用户，「AI要真正发挥价值，要做助手，只有手机厂商才能做得好」。

在北京，清华博士毕业不久的陈捷安，也开始了他在vivo的工作。他是数据领域的专家，2018年前后选择职业方向时，他同样意识到，如果在一家手机公司工作，会面对几亿用户，有更大的空间，「带来不一样的增量」。和陈捷安一起入职的，还有许多位来自互联网大厂的搜索专家。

人员码好了，大家开始干活。天地广阔，有时也意味着天地荒芜，要赤手空拳、从头开始。

vivo人工智能一部的总经理肖方旭记得，他们最开始组建AI团队，具体做什么，没想得特别明白，一直在探索。训练过AI打王者荣耀、下围棋、下五子棋，有一些探索就是基于工程师们个人的兴趣，想看看能擦出什么火花。

图谱团队也是最先开工的团队之一。所有人都知道，人工智能三要素是数据、算法和算力，而数据是基础。数据库搭建是辛苦活儿，也是基础建设。陈捷安和同事们，搜集海量的中文互联网数据，做数据清洗、知识建设，最终形成所谓的知识图谱，这花的是时间和成本，考验的是人的信心和耐心。

对这群工程师们来说，那是一个满怀希望、大展拳脚的时刻。

他们畅享，要做出人工智能手机，实现「三全三自」，全场景、全连接、全交互，自学习、自索引、自建议。这是一个相当美好的理想，放在今天也毫不过时。

蓄力

但很快，聪明的头脑们就发现，技术从畅享到落地之间的路途，比想象中更远。用周围的话说，「满怀激情，但其实是碰壁了」。

何为碰壁，简单来说，就是当时的技术，无法支撑Jovi像人一样对话——它只能支持非常简单的对话，不能理解上下文，不能理解复杂的语言，不能理解一句话里带两个指令。「用户对智能的期待，是可以勉强像个人，或者像个十岁的人」，但当时是做不到的。

这也是那几年人工智能行业的普遍困境。2018年，一位科技记者曾做过测试，给当时市面上的几个智能助理，提了一个看似简单的需求：「推荐餐厅，不要日本菜」。结果助理们推荐的全是日本菜。「不要」二字，被它们一致忽略。

很多人会本能以为，既然能造出打败世界冠军的AI，那么造出处理人类日常事务的AI，肯定不成问题。但事实正好相反，「能造出在围棋上打败柯洁的AI，但却造不出能给柯洁管理日常生活的AI」。

究其根本，打败柯洁，AI只需要学习围棋，是知识积累和规则匹配。而和人自然对话，需要理解语义、上下文、逻辑，其中有深入的交流理解，复杂的询问和引导，这是一个人类还未打开的「黑盒」。

杨苏在他的领域里，也遇到了相似的难题。他本打算做的，是基于用户的时空位置，提供一些便利服务。比如用户坐地铁上下班，哪里上，哪里下，手机可以提前预判，调出地铁乘车码。但当时的技术只能做到——捕捉到用户到了地铁附近时，马上推出乘车码。所以常常会有同事来问他：「我中午下楼吃饭，路过地铁站，怎么也给我推乘车码？」那是因为手机还没有进化到能理解人类的生活——他们还在上班，中午是不能坐地铁回家的。

看到了局限，那怎么办？这是一家手机公司，在激烈的竞争中存活了近30年，务实是不变的底色。

周围和同事们很快决定，至少，他们可以继续强化人工智能技术，把它应用在手机的各个方面，让用户有更极致的使用体验。比如跟视觉有关的技术，可以改善拍照。比如语音识别，可以帮助听障群体。

张程是vivo人工智能算法的负责人，为无障碍做了很多事情。两三年前，他看到了一个新闻，有个报警电话，反复打到公安局，但却不说话，只发出呜呜呀呀的声音，后来警方通过定位找到报警人，才知道是一位迷路的听障人士。

这只是听障者生活中无数麻烦之一。听障夫妻组成的家庭，孩子从床上跌落大哭，父母会听不到。听障外卖员，送外卖很不方便。他们去走访时，一位重度听障的女孩，用手机打出了一句话给他们看，「我无能为力和健全人沟通」。

这些故事触动了他们，而他们正是掌握工具的人——通过AI声音检测的算法，可以识别周围的声音，比如孩子的哭声，门铃声，警报声，把这些声音变成信息，推送给听不见的人。

在这个过程里，人会更理解彼此。周围说，他们后来发现，虽然能用算法帮听障人士「听到」，但他们还是更习惯用手语，因为它更自然、更高效。后来他们就想，是不是能做一套手语的解决方案？这在全球范围内都没有，他们就自己做。

工程师们自学了手语，让机器识别手势，识别一段段连贯手势表达的意思。说到这里时，周围提到了南非前总统曼德拉的一句名言，「如果你用一个人听得懂的语言跟他交流，他会记在脑子里；如果你用他自己的语言跟他交流，他会记在心里。」

杨苏和同事们，也开始解决用户跟时空相关的痛点。用户第一痛，就是网络，有时网络糟糕，其实是因为手机连的基站不好，手机如果能智能选择最优的基站，问题就能解决，这个解决方案，他们做好了；另一个场景是所谓的「地铁黑洞」，地铁有些地段确实没有网络，令人痛苦，但如果用户多次经过这条路线，手机会慢慢识别，最后，它会在进入「黑洞」前告诉手机里的App，多加载一些内容；第三个场景，是乘飞机时，手机会拼命搜索网络，耗电极快，他们让手机智能识别这个场景，起飞时禁用网络，下降时迅速恢复，这一点，今天也已实现。

这些改善对用户来说是不可见的，「你做了不会有人点赞，但你不做，用户会很痛苦」。在这背后，他们做了大量的工作，研究用户的习惯、位置、偏好、场景和使用状态。

远在北京的vivo图谱团队，陈捷安和他的同事们，五年里始终在收集数据。巨大的专家团队、无数轰鸣的机器、昼夜不停息的爬虫系统，将中文互联网上所有的信息清晰、筛选，整理，每月更新。截止到此刻，他们积攒了2000多T的数据，清洗出来15T数据用于模型训练。当数据大到一定程度，其实已经很难类比，15T数据相当于2000多万本《三国演义》，相当于2.5个国家图书馆......

这样的笨功夫，当时做得辛苦，但在之后被证明，所有苦功都没有白费。

All in

转变真正到来的时刻，周围是在他家的书房里体验到的。

大概一年前，周围在自己家写代码。他是一位老码农了，管理几千人，写代码早已不是工作，而是周末的消遣。说到这里，他语气轻快起来，「星期六、星期天，我最开心的就是，哇！今天晚上我可以搞大半个通宵。」

同事们都不知道，他自己搭服务器，一到长假，就一头扎进去「疯狂更新算法」。Kaggle是一个全球顶尖的机器学习竞赛网站，全球的程序员在这里竞赛，做同一个任务，竞争排名，算法好，排名就上升，他们称之为「爬天梯」，周围也会参加。在他看来，写代码依然是最快乐的事，程序能把想要的东西变成现实，能在竞赛中赢过别人，这是最直接的反馈，有最强烈的多巴胺的刺激。

去年冬天，ChatGPT推出，他开始用ChatGPT和GitHub（全球最大的程序员论坛）的一个大模型来写代码。当他输入指令，说要写一个框架，「直接蹦蹦蹦就写完了」，看到那段代码，周围很惊讶，「当时我就觉得，它相当于一个超强的团队」。放在以前，有些算法他没信心能写完，或者要花几个月，有了大模型，他的程序已经运行了几个月，「对生产力是成百倍的提升」。

ChatGPT的出现，也在全球范围内引起震动。推出短短两个月，超过一亿人使用。四个多月后GPT-4发布，它被认为是通用人工智能的早期版本。用户可以问它所有领域的问题，跟它进行无数轮的问答，会体验到与人类交谈的感觉。

周围和同事们意识到，如果是2018年的Jovi是他们的美好想象，那么这一次，时间真的到了。

2023年一开年，大家关上门，高强度讨论了两个月，内部最终达成共识：ChatGPT就像蒸汽机，是划时代的改变，是一个带来巨大生产力提升的工具，他们必须投入。他们一起去了北京和杭州，国内一流的大模型团队，都看了一圈，有了更多的确信——做这件事，他们的思考和技术都不比别人差。

另一个需要解答的问题是，已经有了这么多大模型，为什么vivo还要自己做？国外的大模型，包括openAI在内，有的不开源，有的并不适合国内的情况，有的不适合vivo的产品，国内的大模型，又还没有到成熟的阶段，从成本上来说，也是巨大的挑战。想来想去，没得选，必须自己做。并且，All in。

我问周围，该怎么理解All in？他说，「战略上唯一的、完全的选择」。1000多名员工，直接转到大模型方向，不那么重要的事情全部停掉了。

此前的蓄力，在这一刻爆发出能量——五年来积累的所有数据、知识图谱，这是大模型的基础；五年来他们紧紧追踪的最新算法、发表的几十篇顶会论文、700多项专利，是技术支持；如果说大模型是大脑的话，他们在图像、声音、传感器等等方面的积累，就是让手机长出了四肢。

他们创造出的大模型，本质上是一个压缩了人类几千年知识的「字典」，熟知人类的历史、文化和文明，无论你问出什么问题，它都会给出答案。它的珍贵之处还在于，拥有与人类相似的逻辑、情感和价值观，它能理解语言，有逻辑推理能力，有表达生成的能力。与2018年的Jovi相比，如今的蓝心小V，更像一个真正意义上的「智慧助手」。

用户的需求复杂多变，他们也必须随之而变，周围描述了他们的设计：用户最简单的需求，比如问个天气，让小V做个文档总结，用10亿的大模型，不上云端，在手机内就可以完成，快且安全；再复杂一些的场景，比如多轮对话，比如用户要出差，涉及到如何订票、天气、行程等等环节，他们又做了70亿的大模型；还有更复杂的任务，比如解数学、物理题，让大模型写代码，再比如专业的法律和医学知识，这需要调用巨大的计算资源，所以，他们继续做了700亿、1300亿和1750亿的大模型。

今年夏天，他们试着让初具雏形的大模型去打榜，很快就在中文大模型评测榜单C-Eval上拿到了第一名。

C-Eval榜单，被认为是国内最权威的中文大模型评测榜，题库覆盖了人文、社科、理工等等方向，考验知识和推理能力，且所有题目都是经过处理和人工清洗的。

看到这个排名，大家心里的石头落了地。

前路

当然，这不是一篇完全理想主义的文章，不是在描述一个顺遂的童话故事。实际上在采访时，周围花了一半的时间在讲述，大模型依然不完美，它依然有小瑕疵。

今天我们能看到的vivo大模型，能在日常生活中完成许多功能，比如知识的传授，手机的管理，根据后台数据，现在大家使用小V助手最多的场景，是处理照片、写诗、画画、闲聊，这些场景已趋于成熟。

但作为一个1.0版本的大模型，它也同样在面对行业的普遍困境——所有人都在说的，「大模型的幻觉」。所谓大模型的幻觉，一是它的逻辑思维能力还并不强，二是有时它会「一本正经地胡说八道」、「它不知道自己不知道」。

逻辑思维能力，一个简单的例子就是「鸡兔同笼问题」，人类初中生可以解答，但机器不一定能做好，关键就在于思维链是否完整。这个问题推而广之，会出现在生活的各个时刻：比如办公室的窗边有一盆绿植，边上有个自动喷水的水桶，如果水桶坏了，会出现什么情况？人类明白，水桶坏了无法浇水，植物会渴死。再比如口袋里装了三颗糖，有大有小，口袋破了洞，会出现什么情况，人类会先问，洞有多大？如果小的话，可能小糖掉下去，如果洞够大，三颗糖都掉下去。

这其中的逻辑推理过程，怎么让机器解决，周围觉得「其中还有巨大的空间」，这是内部的「一号问题」。

另一个则是「胡说八道」的问题。人类社会的知识如此广阔，迅速变化更新，数据永远都不够新、不够全、不够深，在更新数据、增强搜索能力的同时，他们在某些议题上的处理方式，依然有vivo务实的风格：当用户提出一个非常专业的问题，比如医学上的某种疾病和症状，大模型会建议，去专业的医学机构寻求资源。

周围坦诚地谈论这些问题，但也有一种笃定和确信——大模型所带来的生产力的提升，毋庸置疑，他们走在一条正确的道路上，遇山就开山，遇水就搭桥。

他的同事杨苏正在负责的，就是一个更高级的2.0版本，一个基于大模型的智能体。

他正试图攻克的核心问题，是「上下文」。「上下文」有很多含义，可以是交谈中的上下文。比如用户提出一个要求，「请继续讲昨天的故事」，这背后就有一系列问题，昨天讲的是什么故事？讲到了哪里？这个过程需要存储记忆、检索记忆，要有对文字的理解。这是人类生来就有的能力，他们想把它加诸机器之上，机器要能听懂人类，这个过程很关键。

「上下文」，也可以理解为对环境的感知。当我们跟ChatGPT聊天，我们输入文字，它也回复文字。但手机的好处就在于，它有几十个传感器——是的，很多人未曾了解，手机的前后置摄像头、GPS定位系统、WIFI功能、陀螺仪、加速器、重力传感器，始终像海绵吸水一般，感知你的状态，你是在走路还是骑车、坐车，在公司、地铁或室外，当你接起电话的时候手机会息屏，是为了防止误触。

只是创造它的过程如同登山，他们依然走在密林中，遥望雪山之巅，以及那时隐时现的小径。

从事这样的创造，到底是什么样的心情？

杨苏的感受相当复杂。他说，最开始是怕公司不愿意做，他觉得自己必须参与，那是一种作为技术人员，本能的使命感。但真正开始做了，会有对未知的恐惧，有对成功的渴望，还有很久未体验过的新鲜感……

而周围呢，从前他总是期待周末和长假，他可以写代码、打游戏，得到彻底的放松。但现在这些他都不做了——因为做大模型带来的挑战、刺激和快乐，超过了任何事情。

在工作群里，他盘点过这条长路：2017年过完年，开始组建AI团队，2018年3月，Jovi发布，同一年，操作系统团队成立。六年过去了，「算下来，2300多天了，人生不过30000天不到。」

本质上，这是一个关于梦想实现的故事，一群人找到了自己热爱之事，坚定地投入自己的时间与生命。

5年前的采访中，周围讲过自己的一个设想：当时他的一位家人因病晕倒，让他开始思考，如果手机可以通过摄像头、麦克风等传感器，感受到人的心跳、心率，咳嗽声和呼噜声，「完全可以提醒你提前就医」。在当时，这是他描述的激动人心的未来。

就在今天，这个未来，他们亲手实现了。在大模型的基础上，他们做了一个「家人健康管家」功能，手机不仅能检测人的健康数据，发送用药提醒，还能把异常数据及时传给家人。甚至在老人的手机不小心装了恶意运用时，子女在远方，也能看到，可以远程卸载。

这就是他们想要的大模型，是助手，是家人，偶尔治愈，常常帮助，总是安慰。

（文中杨苏、陈捷安、张程为化名。）

《人物》「时间的力量」系列图书

点击图片购买↓↓↓

亲爱的读者们，不星标《人物》公众号，不仅会收不到我们的最新推送，还会看不到我们精心挑选的封面大图！星标《人物》，不错过每一个精彩故事。希望我们像以前一样，日日相伴。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章