小模型技术是中国企业率先导入装备中，大模型也不例外

2024-04-26 10:04

去年，宇视科技发布了行业大模型“梧桐”，推进AIGC对物联网行业的改变。今年4月16日，又是在乌镇，宇视总裁张鹏国又带来了一系列全新观点，如：“大模型只是技术升级而不是革命”，“装备大模型化是商业化落地的最佳线路”，“大模型未来最大的挑战可能是能耗问题”……这些洞见和观察引人深思。观察者网请宇视AI首席科学家李聪廷来进一步谈谈这些问题，将大模型应用落地的最新探索报告给大家。

观察者网：如何理解大模型只是技术升级而不是革命，现在AI技术的热度和期待值很高，这么说会不会把技术发展的可能性给限制了？

李聪廷：技术受关注是好事，更多学术或企业从业者投身其中，加速技术进步和落地。理性的看，从深度学习小模型再到今天的大模型，学习效率低即依赖大量算力和标记数据的问题没有解决，不可避免出现低级错误的问题也没有解决，引用Yann Lecun 的话：“机器学习与人类和动物相比很糟糕”。因此，大模型只是技术升级而不是革命。大模型作为技术升级带来的红利，已经给商业化落地带来很多商机，给不少企业带来未来的增量或者效率提升。也正因为现在的大模型技术不是最终解，使类似 Yann Lecun 这样的科学家把精力放到研究面向未来的新的技术路径，应该说理性看待当下大模型技术，反而加大了找出未来路径的可能性。

图灵奖获得者杨立昆（Yann Lecun）

观察者网：图灵奖获得者杨立昆（Yann Lecun）批评Sora不是世界模型，认为生成式路线注定无法通往AGI，对此你怎么看？

李聪廷：世界模型是对物理定律和环境规则的理解和对齐，Sora 目前的确做不到这一点。现在的 AI 水平距离 AGI 还很遥远，但已经消耗了巨大的算力和能耗，以 chatGPT 为例，每天需要耗费 50 万度电，相当于 1.7 万个美国家庭的耗电量，其学习效率与人脑天壤之别，这不得不引发学者们思考新的出路。

对当前技术路线的未来悲观，并不代表对过去和当下的否定。Yann Lecun 2022 年的“From Machine Learning to Autonomous Intelligence”讲座，开篇提到“AI can do pretty amazing things today”，是对过去和当下的肯定，然后才提出当下技术路线无法通向 AGI。举个例子，当下辅助驾驶已经在新能源车上普及，提升了驾驶体验，但 L4级别的自动驾驶落地遥遥无期，不可避免出现未知错误的问题难以根本解决。“当下最优解，不是最终解”这句话是对当前大模型技术现状相对客观的总结。

观察者网：在千行百业落地的国产模型，要为解决各种细碎的问题，为细分场景专门优化，那么在同等的任务上，未来表现出的能力，还会与国际上顶尖的通用大模型有差距吗？有可能展现出大模型公司搞不定的能力吗？

李聪廷：通用大模型，是基础设施，有点像 Android 这样的操作系统，有两个特点。一是投入大，只有少数巨无霸企业能够持续投入；二是生态壁垒墙厚，占先机建立广大用户基础后，留给追赶着的机会就不多了。大模型技术是在美国爆发，因此 OpenAI、Google、Meta 等美国企业已占据了先机，中国企业或机构处于追赶状态，我们不得不面对和正视这个差距。

通用大模型首先在C端获得了大量用户，人们可以与它对话、提问、写作、作画、作曲等，这种体验是以前 AI 做不到的，一时间人们误以为AI已经追上甚至超越人类水平。但在一些细分场景落地过程中，特别B端场景落地过程中，人们很快发现其精度过低、成本过高，无法落地。例如，使用市面上任何一个通用大模型识别迪拜车牌，正确率低于 20%。又比如，宇视作为产品和解决方案辐射全球200多个国家和地区的全球化公司，资料翻译很消耗人力，但通用大模型会把“枪机”形态的网络摄像机直译成“gun camera”，因为它不具备“box camera”这类专业词汇的知识库。因此，是细分场景落地催生了行业大模型。

在中国，我们深入去看每一个细分行业，几乎都能找到一两家甚至更多具备很强产品研发能力的企业。这类企业在国内市场充分竞争厮杀，国外产品型公司很难与之竞争。这类企业，已经在将自身产品与行业大模型结合，推出更有竞争力的产品。以宇视自身为例，前段时间我们推出了夜鹰系列摄像机，其展现的在 0.001 Lux 下的夜视能力在业内引发热议，领先海外同行企业两年。夜鹰的背后是十多年摄像机技术的积累以及梧桐行业大模型的AI-ISP能力结合。总的来说，行业大模型落地产品，我国并不落后。

大模型化的摄像头提升了夜间观测的能力，用于观察和保护猛禽

观察者网：装备（工具）的模型化能战胜模型的装备（工具）化，或者说，+AI能战胜AI+，这个判断有哪些产业发展历史上的经验可以佐证？

李聪廷：现在的大模型阶段已有不少例子，比如一年前 MidJourney V5 和 Stable Diffusion 这类文生图大模型出现在公众眼前的时候，有人惊呼图片编辑工具市场要颠覆了。但今天看 Adobe Illustrator 、Photoshop 这类工具的用户并没有流失，在 Adobe 推出 firefly大模型并集成到自家工具中后，其用户基础更稳固了。背后的本质是，大模型技术可以提升工具中部分模块的效率，还远远达不到替代工具本身。而且今天，训练调优一个自己的行业或垂直大模型门槛并没有那么高。

回顾上一个阶段，即 2014 年深度学习技术在产业界开始爆发到大模型技术应用前，一度很多人也认为 AI新势力会颠覆传统应用/工具/装备的公司。早期，这类公司的算法处于领先，同时在大量资金注入和人才加盟的背景下，很快入场做产品。最后发现产品的技术点非常多，传统产品公司过去踩过的坑，AI 新势力不得不重新踩一遍。好不容易过了产品研发关，又遇到了制造瓶颈，制造特点是单个环节看似极其没有技术含量，但数百万器件 bom的管理和流水运作，有极高的门槛。制造门槛后面还有渠道门槛，渠道门槛后面还有规模采购成本门槛。最后 AI 新势力不得不转向提供算法授权的商业模式，但很快传统产品公司完成了算法追赶，算法红利消失后，这种商业模式也折戟了。

上述例子表明，装备（工具）企业被大模型技术新势力企业赶超的可行性很小，但那些跟不上大模型技术升级落的装备（工具）企业有可能被其它装备（工具）企业淘汰掉。

观察者网：从装备大模型化的观点看，中国应该具有率先将大模型应用落地的诸多优势，如工程能力的优势，新能源产业的优势。从你们在海外市场竞争的经验看，中国企业是不是走在了前面？

李聪廷：先从装备的产品力本身看，以AI体锻屏为例，需要具备成像技术、嵌入式软件技术、云和APP软件、硬件技术、显示技术、交互设计、工程交付技术等诸多要素，当然还有 AI。研发出有竞争力的产品还远远不够，得上量才能覆盖研发投入并有利润，这很考验企业的渠道能力。有渠道带货，我们还要能造得出来，这又考验企业的规模制造能力。产品售价既要有竞争力还要有利润，这又考验企业的规模采购议价能力。当然，还有速度要素。因此，比拼的是所有要素的综合能力。

AI是其中一个要素，从小模型到大模型，技术升级了。这个变量，在装备企业之间产生足够的影响，旧的产品会加速迭代，并且还会创造一些新的场景的产品；反之，如果跟不上技术迭代，企业就会掉队。但对于没有装备经验只有大模型技术的企业，要迈过其它诸多要素的槛，道阻且长。

上一阶段的小模型技术，中国企业是率先导入并应用于装备中的，这次大模型技术也不会例外。

观察者网：已经有不少批评说中国做大模型的公司太多了，但是中国能做各种设备的公司更多，如果每个有实力的设备公司都想+AI，做自己的行业模型，会不会呈现出非常细碎，没有统一标准、统一品牌的离散格局？

李聪廷：新技术出现，必然会吸引大量优秀人才和资本入场。这里有定位通用大模型的、有定位行业大模型的、有定位工具链的、当然还有定位 APP/工具/装备的。

通用大模型，最后大概率会集中在头部少数几家，赢者通吃，这几家自身就成为了事实的标准。其它企业会比较艰难甚至出局。

定位行业大模型的企业，有点像小模型时代的算法授权商业模式，它太容易被APP/工具/装备企业的自研给替代。因此避开与这类产品企业竞争，找到有生存机会的细分场景很重要。最后有可能出现几个细分场景的小而美的企业，做大的可能性不大。

定位工具链的企业，闭源，无法获得大量开发者用户，不利于建生态。开源，看不清商业盈利路径。左右为难的同时，还面临大厂自研的竞争挑战。

定位 APP/工具/装备的企业，行业大模型只是其产品的一个技术要素，用户侧看到的仍是其产品品牌。用户甚至感受不到行业大模型的存在，但一定能感知到产品的用户体验提升了。

观察者网：月之暗面的杨植麟说，今天的大部分开发工作实际上是做中间层的事情，就是数据。交互和模型可能都是一样的，但用不同的数据，就会出来不同的产品。定义好了训练数据和测试数据，大模型产品就定义好了。月之暗面是做云计算，做to C端产品，对于你们做边缘计算，做to B端产品来说，这个描述也适用吗？

李聪廷：最近月之暗面及其旗下应用Kimi 热度很高，用户体验做得不错。我们所在的 AIoT 赛道，和它所在的赛道没有交集。训练和测试数据肯定很重要，在我们这个赛道也一样。但对于定义一个行业大模型而言，我们会更关注其落地的性价比。例如，如果我们用 10B 级别的通用 CV 大模型去做视频解析的逐帧推理，那需要用到 A800 级的 GPU 设备，单路的实时推理成本需要 1 万美金左右，而我们的客户过去只能接受几百元人民币每路的成本。因此，我们采用了 5M 的小模型+1B 的梧桐行业大模型结合的方式，并且都是 ViT 网络结构，这样我们的单路推理成本可以做到几百元人民币水平。

Kimi页面

观察者网：当前倡导的“新质生产力”就是要找到更多信息化、智能化的新模式、新场景、新业态。在典型的物联网场景比如充电桩，还有你们正在探索的文教体等行业，目前找到了哪些好的AI应用场景，已经表现出了能够商业落地，适合技术迭代的迹象？

李聪廷：确实，技术进步会催生更多的细分行业场景，比如AI文教体、储能、充电桩等，在宇视2024合作伙伴大会的现场，大家能看到很多的这类产品，我举四类：

一是AI体育教育：实现体育教具的AI化，其是一个具备逐步迭代与升级的长程赛道，可以围绕的教学要求、运动种类、锻炼目标等不断地提升效率、效果及内容丰富度，一方面是针对不同的运动类目不断增加算法类别，另一方面又可在单一算法类别上不断纵深优化效果。

大模型提升了算法精度，推进了体育教具AI化

二是AI体育运动：分享经济时代，能更全面记录自己想要记录的时刻，具备更丰富的可分享素材是通识性需求，只要是运动游玩都有此类诉求，所以在这个领域内宽度（运动类别）无上限，深度（每一个细分领域可提供满足个人情绪价值的内容）无上限。

在乌镇现场展示的智能球场解决方案，通过AI捕捉分析，自动生产运动视频并统计数据

三是文旅领域：基于梧桐大模型演进的算法服务于“旅游”行业，通过摄像机采集AI择优生成照片与vlog模式可覆盖景区、游乐场所、博物馆等多类场景，更好的与当下分享经济结合，服务于个体情绪价值的满足，其具备充分的优化演进空间，比如在算法的优选效果上、视频的画面清晰度上、视频剪辑的创意性以及更多更有趣的表达方式等等。

四是AI写真：通过AI算法来完成照片的优选与“PS”，可以配合个体快速的完成不同场景生成、不同装造、不同形象（二次元、商务等）的照片生成，即可帮助找适合自己的造型、也可在过程中带来娱乐性，同时也可服务于个体某一些场合所需照片的快速获取诉求。

观察者网：大模型未来最大的挑战可能是能耗问题，模型的能力增长与算力增长、能耗增长的关系是怎样的？为什么分布式能源系统和能算一体化是解题思路？

李聪廷：要把大模型技术和大模型应用分开，还要把大模型应用中的互联网服务和装备化产品分开。对于面向C端的大模型互联网服务来说，比如ChatGPT、Sora来说，算力和能耗问题比较突出，每多服务一个用户，都需要额外的算力和能耗。但对于使用的大模型技术的装备来说，算力和能耗是有限的、固定的，并不存在算力和能耗焦虑。

对于算力高度集中的数据中心应用场景，能算一体也许是个发展方向，能源自给自足肯定是有利于降低成本的，但代价是能源供给的稳定性。分布式能源是一种能源结构，涵盖的面比能算一体更广泛，解决的不止是数据中心能耗的问题。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章