融资千万，结盟软通动力，人大多模态大模型元乘象正在圈地大B市场｜甲子光年

科技

2023-05-25 15:05

“真正落地时，要考虑AI带给场景的增量。”

作者｜刘杨楠‍‍

编辑｜栗子

近段时间，来自四面八方的国产大模型正在加速涌现。

在众多大模型团队中，学院派教授下场创业是一个重要分支。其中，清华系无疑是势头最猛的——智源研究院、智谱AI、聆心智能、面壁智能等耳熟能详的大模型创业团队均来自清华。

但除清华外，人大也正在多模态大模型领域开疆拓土。

近日，多模态大模型初创企业“智子引擎”宣布完成千万元天使轮融资。该公司背后的核心团队便是中国人民大学高瓴人工智能学院教授卢志武带领的课题组。课题组内的高一钊博士任智子引擎CEO，卢志武教授担任公司顾问。

卢志武教授在多模态大模型领域已有多年积累，曾主导设计了首个公开的中文通用图文预训练模型“文澜BriVL”。2021年3月，卢志武所在的团队发布了多模态大模型“文澜BriVL 1.0（Bridging-Vision-and-Language 1.0）”，后续还发布了 “文澜BriVL 2.0”。

去年底ChatGPT出圈后，“多模态”随之成为语言大模型之后的下一个焦点。为抢占先机，卢志武教授带领团队加班加点，借鉴文澜的研究经验，自主研发了多模态对话大模型，并落地了第一款应用级多模态ChatGPT产品——元乘象ChatImg（下称“元乘象”）。该模型参数约150亿，不仅支持文字对话，还支持图片输入，能够理解图片内容，并生成相应文本回答。

在许多玩家还在摸索多模态大模型的技术路径时，元乘象已经走到了产业化阶段。目前，元乘象团队并未在C端过多发力，主要瞄准大B市场。此外，元乘象内部依然在持续迭代模型，实现图片生成的能力，并加入视频、音频等多种模态。最新的模型成果预计于月底发布。

日前，「甲子光年」深度对话了卢志武教授与高一钊博士，试图剖析这家站在学术与产业交界处的多模态大模型团队，走出了一条怎样的产业化之路？

1.文澜BriVL：元乘象的“练兵场”

要了解元乘象，首先需要了解多模态大模型文澜BriVL。

2020年6月，OpenAI发布GPT-3。1750亿的模型参数让GPT-3在人工智能领域内掀起了一阵大模型热潮。由于还没有实现产品上的突破，没有便捷的交互界面，GPT-3远没有像今天的ChatGPT一样被大众熟知。

但国内一些学者已经嗅到了新趋势的味道。

2020年下半年，清华大学唐杰教授联合清华大学的刘知远、黄民烈及人大的文继荣三位教授共同研发国内自己的AI大模型。因其他几位教授多为NLP背景，而人大的卢志武教授是CV出身，他便与文继荣教授一起接过了研发多模态大模型的重任。

那时国内外关于多模态大模型的研发还处于空白，卢志武教授需要在无人区自己蹚出一条路。半年后，卢志武领导的模型组推出了文澜BriVL 1.0（Bridging-Vision-and-Language 1.0），迈出了国内在多模态大模型领域的第一步。

这一步走得并不容易。

2021年初，卢志武领导的模型组率先采用微软新推出的DeepSpeed框架来支持几十亿参数模型的训练。此外，由于算力稀缺，为减少内存，团队尝试采用ViT（VisionTransformer）架构，还在自监督训练中首次利用跨模态MoCo，实现了较小的Batch（分批处理）而不降低效果。

此外，以往研究中，很多多模态预训练模型，尤其是单塔结构下，往往存在一种强假设：输入数据后，图像与文本之间存在较强的语义相关性。

例如，对于下面这张蛋糕的图片，模型会假设在多模态数据集中对应“水果蛋糕上有一些蜡烛在燃烧”等类似的描述。

但卢志武团队发现，实际生活中，图片与文本之间往往只存在比较抽象的弱语义相关关系。例如，人们在看到这张图片后，可能会首先联想到“生日快乐”“生日许愿”等文本内容。

卢志武团队进行了一系列的实验和探索。实验结果表明，在开放获取（例如互联网上的公开数据）的图文数据集上，简单的双塔结构要优于单塔结构。因此，BriVL采用了双塔结构作为多模态预训练模型的基本架构。该成果也成为国内多模态大模型领域首篇登上Nature子刊的论文。

尽管在技术上已经有了突破，但业界对多模态大模型的认知并不多，卢志武团队做了很长时间的“市场教育”工作，却始终难以让人信服。

2022年年底，ChatGPT掀起人工智能浪潮。当时，卢志武教授便在想：“为什么我们没有研发出这么好的模型？”这时的市场注意力还更多放在语言模型上，多模态仍然不被理解。

直到今年，业界开始流传GPT-4的传说，“多模态”随之成为语言大模型之后的下一个焦点。为抢占先机，卢志武教授集合了曾参与文澜研发的研究人员，借鉴文澜的研究经验，研发了多模态对话大模型，并落地了第一款应用级多模态大模型产品——元乘象ChatImg。

文澜BriVL和元乘象ChatImg是两个独立的模型。从功能上看，文澜聚焦于理解，不具备生成能力，而元乘象则在理解的基础上，叠加了生成功能。

但值得注意的是，强大生成能力的前提是强大的理解能力——这一点很容易被忽视。

“做生成的往往不太关注底层理解，比如之前那股AIGC风潮，大家都觉得你必须做文生图，像我们这种做底层理解的就不被人理解，人家觉得你做这个有什么用。”高一钊告诉「甲子光年」。不过，ChatGPT和GPT-4的出现已经打消了这种误解。

目前，元乘象背后的商业主体——多模态大模型初创企业“智子引擎”宣布完成千万元天使轮融资，并开始摸索产业化道路。

在元乘象落地产业的过程中，出现了一个关键角色——软通动力。

2.结盟软通动力，一拍即合

4月27日，有报道称，软通动力聘请中国人民大学高瓴人工智能学院教授、博士生导师卢志武为首席AI科学家。

自2013年起，软通动力这家老牌软件与信息技术服务商便开始探索人工智能与自身业务的结合——面向自然语言处理的人工智能技术平台（软通智核）的研发；后基于软通智核推出高精准度对话机器人Rglam (安歌)，在物联网、银行、保险、证券、汽车、电商等多个行业落地；并整合自动化 (RPA) +智能化 (AI) +低代码能力，推出AI端云一体化产品，形成了一整套自动化创新产品和服务。

鉴于多年的AI布局，ChatGPT发布后，软通动力立马意识到，这可能会对公司原有业务模式产生巨大冲击。很快，软通动力便决定全面拥抱AI。

软通动力首先找到微软，接入了ChatGPT；百度文心一言发布后，软通也应声接入。但软通动力发现，ChatGPT、文心一言等通用大模型很难完全契合公司众多场景的业务需求。

同时，考虑到数据安全问题，软通动力需要在国内找到一个既能灵活满足其个性化的业务需求，又能保证数据安全的合作伙伴。

由于卢志武教授和软通动力董事长刘天文是多年好友，双方很快达成共识。

软通动力内部搭建了一套评测体系，来测试各家大模型在业务中的实际效果。而元乘象在测试中表现十分出色。

当时，元乘象团队向软通动力开放了API。据高一钊透露，在实际调用后，软通智慧城市治理业务下十几个场景的召回率达80%；而在小模型时代，这一数字仅50%左右。

此外，元乘象提供的行业垂直模型还具有一定的泛化性——不仅能服务单一场景，一些相似的场景需求都能被一个大模型打通。

因此，对软通动力而言，元乘象无疑是最佳选择。而从元乘象团队的角度出发，软通动力也是大模型研发路上一个不可或缺的角色。

“做大模型有这样一个企业与你深度合作也是挺重要的。”卢志武表示。事实上，他们并非没有考虑过和大厂结盟，但大厂大多在合作中态度强势，如果被大厂认同，最终的下场可能是被并购。这不是元乘象团队想要的结局。

相比之下，软通动力是一个理想的伙伴。一方面，他们有能与大厂相媲美的资源实力，却没有大厂“遇佛杀佛”的锋芒；另一方面，软通动力自身也有大量的业务转型需求，能与元乘象形成互补。

“我们的业务场景就是你们的业务场景。”软通动力CTO刘会福曾对元乘象团队表示。不仅如此，软通智慧CTO杨旭青也十分看好元乘象的发展。但这并不意味着软通动力会将元乘象收购，他们更希望元乘象以自己的业务场景为基础，不断拓宽边界，完成从1到10，乃至100的进化。

3.圈地大B市场，和大厂拼速度

元乘象研发团队负责人高一钊表示，团队在选择落地场景时主要考虑两个维度——能复制且场景自带数据。

目前来看，这两点几乎是当前大模型团队在选择落地场景时的共同需求，而金融、医疗、教育、办公等则被看做是大模型的完美落地场景。

但在高一钊看来，金融、医疗等场景并非元乘象的最优解，“真正落地时要考虑AI带给场景的增量”。

金融和医疗对大模型生成内容准确度的要求极高，1%的误差便可能酿成大错；而部分场景对AI理解与生成的精确度有一定容错率，且AI赋能下，效率会显著提升。例如城市治理场景中，让大模型通过监控识别小偷，每抓到一个小偷，都能让城市治安更好一些。

而元乘象团队瞄准的，正是类似的场景。据卢志武透露，元乘象目前的落地场景主要与视频、摄像头、手机有关。

例如，在软通智慧的to G业务中，包含一个通过摄像头、无人机等设备监测偷渡者的细分场景。此前，由于技术不到位，软通智慧很难解决这一问题，但在接入元乘象后，问题便迎刃而解。

事实上，从各方面资源来看，元乘象在这轮大模型军备竞赛中的资源储备并不算“顶级”，也缺少像王慧文、王小川等大佬创业的明星光环。与此同时，百度、科大讯飞等大企业均在布局多模态大模型，MiniMax等多模态大模型领域的创业公司也势头强劲。

面对越发激烈的市场竞争，元乘象团队也有自己的独特性：

一方面，元乘象的研发团队均参与了国内最早的多模态大模型文澜BriVL从0-1的研发，对多模态模型训练已有实战经验。在高一钊看来，有模型训练实战经验的人才依然稀缺。“如果没有大模型的训练经验，可能会让模型训练成本翻好几倍。”

另一方面，元乘象不仅能够提供通用的模型能力，还能根据实际的业务需求为客户灵活定制专有模型。“我们不太想往通用性上发力，实现通用性需要大量资金。我们更适合以现有模型的通用性，去解决垂直行业的问题。”高一钊表示。

荣耀、央视、国家电网等大B客户则是元乘象团队目前瞄准的主要客户群。

在高一钊看来，大厂很难在大B市场实现一家通吃。作为创业团队，元乘象团队反而能够利用自身的灵活性和快速决策能力抢跑大厂，更快在大B市场拿下更多份额。

接下来，元乘象的研发团队也将持续迭代模型能力。

据「甲子光年」了解，未来1-2个月内，元乘象将推出文生图功能；未来半年左右，将推出视频生成功能。

如今，大模型混战愈演愈烈，纵使李开复、王慧文、王小川等大佬争相入场，让大模型市场看起来星光熠熠。但或许，更多的创业团队是像元乘象一样，在大谈理想前，一步一个脚印地先解决如何活下去的问题。

END.

受微信改版影响，没有标星的朋友可能会错过「甲子光年」的推送或是看不到封面，欢迎各位新老朋友给「甲子光年」点个星标⭐️，以便及时收到我们的每篇新推文。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章