“2小时训练出的算法模型,能对抗「碎片化」的AIoT吗?” 但无论其未来有多“无限可能”,还是会面临同一个核心问题:如何落地。这么多年来,要选一个AI落地过程中的最大挑战,AI产品恐怕是其中之一。技术浪潮迭代,场景纷繁复杂,而产品作为连接两者之间的桥梁,一直没有被很好地定义。去年,旷视提出了“算法定义硬件”的概念。近日,旷视推出了魔方B4T系列产品。如果说“算法定义硬件”是旷视的解题思路,那么“魔方B4T系列”就是旷视阶段性的答案。作为一个拥有十多年积累的AI玩家,“算法定义硬件”到底能不能行得通?面对即将到来的大模型时代,旷视对于AI产品的理解又将发生哪些变化?识别率提升、精度突破、榜单排行,是早期AI界的主旋律。那时候的AI公司,也处于看到算法领域的难题就解决目标的状态,因此他们将注意力放在研发出标准化的模块和SaaS服务类产品。尝试落地的他们很快发现,每个场景没有通用解决方案,客户需要的不是单个模块或开发包,也不具备集成SDK的能力,标准的SDK可以落地,但未必能解决客户的问题。比如,即使同一品牌,几百款不同产品,具备不同的芯片、传感器性能、解析度大小、焦距远近等,规格、要求各不相同,每个应用场景,都对应一套硬件和一套算法,是一个巨大的工作量。旷视意识到,他们必须改变路径。于是,他们决定围绕自己核心的AI能力做产品化方案。将人工智能技术产品化,并落地到诸多行业场景中,这并不是一件容易的事。在人工智能产业化过程中,技术到产品之间存在一个巨大的鸿沟。企业不仅需要从技术角度考虑可实现性,更从工程角度考虑落地方案,注重工程现场与算法性能结合。比如视频应用环境各式各样,有白天、晚上、下雨等等,不同条件下的成像都不太相同,就会要求算法必须要满足复杂的开放环境。旷视因此走上了五六年的产品化探索之路,从重技术,转变为除了重技术,也重产品、重客户、重生态。与此同时,市场也在发生巨大变化:AI需求大量爆发。AI等技术日趋成熟,与碎片化行业场景不断深度融合,越来越多的细分领域的长尾需求被激发,一个海量AIoT市场慢慢浮出。明厨亮灶、火焰识别、电动车识别、吸烟识别、反光衣识别、快递爆仓识别、疲劳驾驶检测......无数散落在全国各地区、各行业的AI需求,像潺潺流水的小溪,正流淌、贯穿出一幅山河巨制。但市场太大,供应太少。而且,扎根长尾市场的企业少,也没有一家公司能涵盖所有算法。这些场景里,基数更多的中小企业,于他们而言,算法生产门槛高、周期长、成本高、效果差。AI产业界的共同富裕,就是让各行各业真正从智能化、数字化变革中获益,其中非常核心的要点,是算法类别的丰富性和算法的高性价比。针对AIoT的场景化需求与当下的困境,旷视提出了自己的解法:算法定义硬件。AI技术要能形成一个真正的商业闭环,需要在与场景深度结合基础上,找到合适的载体,即算法+硬件+应用,针对场景匹配最优,才能规模落地。旷视通过“标准化硬件+开放算法平台”的产品组合来解决落地问题。简单来说就是通过海量算法+一定数量的通用型/标准硬件,满足AIoT领域海量的碎片化场景需求,为万千场景提供普惠的人工智能算法。旷视联合创始人、企业业务产研负责人杨沐告诉雷峰网,虽然整个B端市场的场景多样、需求碎片,但这些年,企业客户市场已经发生几大趋势:基础设施的云化、核心技术的互联网化、应用的数据化和智能化。旷视也开发了几个大品类的通用硬件,比如模组、边缘计算盒子、面板机、AI IPC等,在这些通用硬件载体之上,针对不同场景,开发不同算法。旷视给予合作伙伴算法量产能力,让大家基于自己行业理解能开发出更好的产品,让更多人懂AI、用AI,并结合生态伙伴,赋能千行百业。旷视想要实现的,不只是行业“用上”AI,还有“用好”AI。杨沐看来,真正的“好产品”,核心就两个字:简单。好产品,让用户简单用AI。此前数十年,旷视建立了一套强大的技术体系,但仅有好的AI技术还远远不够,好技术必须变成最好的产品。旷视一直以AI技术立身,如今,旷视要以产品立命。这是旷视“算法定义硬件”软硬一体产品设计理念的延伸,也与AI平民化一脉相承。杨沐认为,To B的好产品,不只是用户用起来,还要用得好,用得降本增效。不同环节的好产品定义不同,而简单,是所有环节最有效、最终极的事情。“好技术的评判标准众多,但产品,市场是唯一检验标准。”旷视的“简单”分成三个层面:选品环节“易决策”、履约环节“轻交付”、使用环节“好口碑”。一是高效选品,通俗讲,就是能够支持客户“闭着眼睛选”。高性能、高性价比、少而精的产品会让客户的决策更简单,因此要求产品集成度高;二是轻交付,通过更好的产品定义、更简单的配置方法,让价值交付更简单;“当一个产品能够被简单决策、使用和认可,就能说明是好产品,自然也能获得好口碑。”杨沐称。在推动算法在各行各业的实际场景落地的过程中,旷视一直坚持“落地实用是算法价值的最终检验标准”。其实,好产品的背后一定是好技术,能够降低AI使用门槛的技术,而好技术是能够切实让AI更好用,两者是相辅相成,相互促进的。“好的产品,是将‘简单’递到用户手中,将‘复杂’的技术留给自己。我们这几年一直在聚焦、聚焦再聚焦,希望能把产品做得更少,但是做得更好。”杨沐表示。魔方B4T系列就是这样一套解决方案,它是旷视基于“算法定义硬件”理念而打造的一款简单、易用的产品方案,集旷视AIS算法生产平台、边缘计算智能分析盒、算法训练服务于一体。AI算法之所以是贵族技术,原因之一在于算法从生产到落地是一个多环节、长链条、高复杂的过程。它包含需求分析,数据处理,模型训练,上线部署,到最后的应用落地。其中,算法还需要反复多轮的打磨。AIS平台将数据生产、算法模型和推理框架这三大核心环节标准化,并预先集成了多个核心底层模型。同时,魔方B4T将AI算法的生产、部署、运行与维护整合到一个平台上,配合智能分析盒,平台、硬件、服务,用户的算法需求可以在平台上一站式解决。魔方B4T的零代码、高精度开发方式,将算法训练过程从12步简化为仅5步,无需编写任何代码,使非技术人员也能轻松上手。目前,AIS平台已经能够支持100多种业务模型训练,最快2小时即可完成。而在使用端,用户对这些都是无感的,用户只需知道如何使用平台,而不需要了解底层代码,简单上手就能训练出自己想要的场景算法。千行万业数字化,需求不尽相同。合作伙伴可以基于自身行业know-how,量身定制产品方案。而这些,不仅限于旷视的合作伙伴。这套方案提供授权服务,合作伙伴在自己项目中使用训练出的算法和模型,还可以将它们授权给自己的合作伙伴。这让魔方B4T的辐射路径,从点到线,再到面,向更多场景延伸,加速了算法推广速度,进一步激发场景创新。降低算法开发的门槛和成本,让算法得到量产,提升算法生产效率并加速算法落地。魔方B4T已经在促进千行万业加速奔向数字化的路上。而大模型这个“超级队员”的到来,将创造新的模型研发范式。一个显著的变化是从机器语言向自然语言的改变。以代码开发为例,在大模型以前,系统无法理解自然语言,软件是由人类工程师编写,他们需要是去visual studio等软件,为计算机提供明确的、逐步的指令,用机器的语言和机器交互。相比之下,大模型是建立在一个使用数十亿个语言词汇进行训练的神经网络之上。它创造了新的人机交互界面,可以按照开发者的自然语言指示生成机器语言。于是,现在在一个聊天窗口,用人类的语言就能和机器交互。另一个是从程序员手写到人机协作完成的改变。比如,大模型能实现自动代码生成/补全。其中GitHub Copilot,可能已经有了10倍的效率提升。传统算法训练模式,每个新算法都需要重新采集大量样本数据、开发训练。从前端数据采集到样本标注,从模型研发、训练到算法落地,战线长,人力物力成本高企。在千行万业源源不断涌现算法需求下,这种模式越来越难以为继。通过海量数据进行预训练形成的大模型,融合了亿级图片、万级视频、十亿级图文的大模型,融合了更多模态信息,大规模自监督学习的多模态人工智能算法,具备超强的泛化能力。“大规模预训练﹢精调”模式,使得用户不用收集大量样本数据集,基于大模型通过零样本、小样本学习就能调优,从而满足场景多元化需求。“预训练+精调”或将成为新的研发范式,让研发过程更加标准化,显著降低了人工智能模型研发门槛。某种角度,大模型是传统AI“作坊式”生产模式的一次救赎。而且,AI智能体技术的快速发展,有望进一步加速AI落地应用的进程。比如,AutoGPT和AgentGPT等AI agent,可以自动化理解、拆解并执行任务,进一步解放人力,加速业务全流程推进。今年,旷视科技升级了AIS一站式算法训练平台,可结合旷视自研行业大模型,高效地定制、开发全新的算法模型,从而解决碎片场景中的问题。这将大大加速AIoT场景应用的落地。
这些最新的大模型技术,将逐步缓解一直以来承担“最复杂的脑力”工作的AI研发人员研发压力。
在未来,大模型将进一步降低了算法生产的门槛,提升了算法从生产到落地的整体效率。大模型“海纳百川”的魅力纵然令人着迷,但大模型就像是雷神之锤,如果没有适合它的钉子,就难以发挥被期许的价值。大模型具有强大的通识能力,但是面对海量碎片化场景,仍缺少行业知识和高质量数据的积累。此外,受边缘侧设备算力限制,大模型难以部署。通用大模型的“大”和“通用”看着诱人,但对于细分领域的B端行业客户,他们更需要的不是通用大模型的“全能”能力、综合技术上的碾压,而是模型的精度和质量,即能在具体需求上追求极致,可以实现功能最大化的产品。换句话说,行业客户愿意为合理开发利用的功能买单,但不会为自己用不到的功能买单。因此技术只有与具体行业结合变成产品,带来实际的使用体验和转化成效,才真正具有价值。不同行业垂直度高,专业需求强,如何训练一个“更懂我”、“只懂我”的大模型?并在满足细分领域需求的基础上,做到成本可控?短期内,大小模型将以“组合拳”形式存在,大小模型各司其职,云边协同发展,实现落地应用。一方面,通用大模型可以通过预训练+微调,产生行业专用大模型。另一方面大模型通过蒸馏、量化等方式,变成边侧易部署&升级的“小模型”,满足客户追求性价比的需求。这也意味着,那些深耕于产业,能触达更多的行业场景,更容易从生产线上获取大量行业数据,且已经积累了较多科学精准样本的企业,同时具备更快的技术迭代速度,将更好地满足碎片化领域的需求和挑战。无论是大模型,还是AI,只要跟现实真实世界产生交互,无非只有三种模式,视觉、语音和文本。这三种模式都是多模态覆盖的,其中,视觉是重中之重。AIoT的实现路径,是通过收集通过物联网终端产生的海量数据,存储于云端、边缘端,再被大数据分析后,并通过人工智能,基于数据来描述物质世界,实现万物数据化、万物智联化。在AIoT的世界,视频就是数据的一个强入口,产生的源源不断高质数据将成为数字化时代的新能源。而视觉能力,则是旷视等AI企业在市场上已经得到“千锤百炼”的强项。在过去的十二年里,旷视已经积累了丰富的产品矩阵,覆盖消费物联网、城市物联网、供应链物联网等AIoT各个领域。在大模型时代,以技术为刃,切开更广阔的空间,AIoT企业正在抵达的“下一站”。