行业观察|商汤加入AI大模型混战,更看重模型能力而非规模
商汤不仅有自己的大模型,也在为行业内其他公司的大模型提供基础设施服务
文|施然
4月10日,AI公司商汤科技公布了“日日新SenseNova”大模型体系,包含自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。
近期,不少科技公司都发布了或是正在筹备自己的AI大模型,包括百度、阿里巴巴、华为等。美国公司OpenAI发布的ChatGPT以及GPT4引爆了这一波浪潮。这次,商汤也发布了自研类ChatGPT产品“商量(SenseChat)”,能够提供包括:编程助手,帮助开发者编写和调试代码;健康咨询助手,为用户提供个性化的医疗建议;PDF文件阅读助手,能轻松从复杂文档中提取和概括信息等能力。
商汤科技联合创始人、首席科学家王晓刚表示,“商量”已开始内测,未来主要面向2B业务。
除对话外,商汤也基于“日日新SenseNova”大模型体系,自研了AI绘图、AI视频制作和生成工具平台,包括秒画、如影、琼宇、格物等。不过,在现场演示后,有网友质疑,商汤所演示的精选模型中出现AI模型站civitai的图片,疑似直接搬运图片伪装生成。
对此,商汤立即回应称,现场生成的高质量图片都是基于商汤自研大模型生成。“秒画SenseMirage”融合了超10亿参数的商汤自研文生图生成模型,同时支持第三方开源模型。通过商汤秒画平台,用户可以免除本地化部署流程。导入开源模型后,平台对该模型加速推理(作图),快速生成高质量画作。在商汤技术交流会现场演示环节中,不仅演示了基于商汤自研AIGC模型的作图,也介绍了用户可导入开源模型并通过秒画平台对该模型加速作画的能力。
虽然行业已经热到发紫,但目前在中国,做AI大模型门槛很高,挑战很大。
AI领域的三要素是数据、算法和算力。目前中国科技公司相对较难的是数据和算力方面。商汤科技董事长兼CEO徐立表示:“大模型参数量将以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,导致对算力需求的剧增。商汤希望在模型的迭代速度及处理问题的能力上可以日日更新,不断解锁AGI(通用型AI)的更多可能。”
商汤成立于2014年,于2021年在港交所上市。目前,商汤在AI领域的投入规模已经超过百亿。
徐立表示,商汤自2019年开始投入大模型,再加上2022年已经投入使用的算力中心,商汤并不需要再额外投入太多,甚至已经开始通过大模型获得收入。
从改造算力中心到提供自有算力服务
商汤以机器视觉技术起家。在视觉的任务中,有大量细分场景的问题需要解决,例如在城市中有诸如智慧交通、智慧停车、智慧社区等。到一些专业领域,例如医疗、金融等,就需要有不同数据和知识的模型和算法。过去的做法是针对单一小任务,细分场景任务训练细分模型。
为此,商汤内部曾经讨论过是否有更好的解决方案。徐立说,结论是要做通用型的大模型,在下面延伸出各个行业的小模型。通过前期的训练测试,商汤发现,通用型模型无论是在传统视觉检测识别方面,还是在智慧城市中,以及无人驾驶上,都有比较好的表现。
训练大模型需要大量算力,OpenAI训练出GPT4用了10000万英伟达A100。商汤最初的做法是改造算力中心。算力不是“堆卡”,还需要做到卡间连接、提速,才能实现高效训练。徐立说,早期的时候,几乎是“除了土建,所有工作都要重做一遍,包括升级机柜、改变算存比例、重新连接计算等。”
今天,依然有不少科技公司,尤其是初创企业,只能选择租算力。商汤发现这一模式成本高昂,还不如自建算力中心。2019年,商汤开始建设位于上海临港的算力中心,2022年投入使用,目前共有5000P算力,未来还将进一步扩建。
算力是个门槛,但是对于目前大多数公司来说,还在起步阶段,用不到太高的算力。商汤的算力中心除了自用,也将算力能力对外输出。徐立说,目前已经有8家客户正在使用商汤的算力中心。
商汤大模型的特点
目前,AI大模型已经进化出多模态能力,除文字外,还能进行图片、视频、音频等模态的交互。徐立认为,商汤在视觉领域的技术、数据沉淀,能够帮助他们在多模态大模型方面的推动。
在训练中文大模型时,通常使用的是互联网上的中文数据。包括新闻稿、论坛帖子、内容社区、社交网络上的文字讨论等。徐立提到,商汤因为自身业务,解决了很多现实世界的问题,从而积累了大量真实场景下的数据。
例如,互联网短视频中的视频数据,可能因为滤镜或是其他技术工具,导致“失真”。这类数据在帮助AI解释真实世界时,容易产生偏差。
此外,商汤认为,模型的规模大小并不重要,重要的是模型的能力。
在徐立看来,通用大模型就相当于一个具备全方位基本素质的人,可以理解为一位名校毕业的大学生。大学生要在工作中发挥价值,依然需要进行某些特定领域的培训,也就是在大模型基础上,通过细分领域和场景的数据培训,变成更易用、更专业的小模型。过去没有大模型基础的小模型,则像是一开始就专门学习某一技术学科的学生。
商汤称,目前客户可根据实际应用需求,调用“日日新SenseNova”大模型的各项AI技术能力,低门槛、低成本、高效率地实现各类AI应用。
“日日新SenseNova”也已为商汤的自身业务带来了一些突破。例如在智能驾驶领域,基于视觉大模型,商汤称,目前实现了可识别3000类物体的BEV环视(Bird’s eye view,鸟瞰图)通用感知算法的实车量产,也构建了感知决策一体化的自动驾驶多模态模型,带来更强的环境、行为、动机解码能力。
如何保障AI的安全性?
目前,AI领域如火如荼,也引发了不少质疑和担忧。美国、中国、欧洲等政府都在考虑制定AI相关安全准则。包括特斯拉CEO马斯克在内的超过1000多名美国AI从业者共同呼吁,暂停开发比GPT-4更强大的AI系统至少半年时间。
徐立认为,保障AI安全和伦理的核心,是在使用过程中划清边界。例如,应用在医疗、金融等专业领域,就要求极高的准确度。
安全担忧或许是新技术爆发时的必经过程。就像汽车最早在英国使用时,当时不是人问了一个很重要的问题:“这个车开到马路上吓坏了我的马怎么办?”解决方案是划分道路,把车和马分开,最后大家发现,不需要马了,就也不用回答这个问题了。
徐立说:“这个问题到今天我觉得都没有人能回答,如果纠结车不能吓坏当时的主流交通工具,那永远找不出一个方案。”这意味着,只要行业对新技术有需求,就一定会共同商议出一个治理规范。
徐立认为,至少到目前,AI还没有展现出“危险”,是机器准确度不断提升后的一次跨越式发展。
微信扫码关注该文公众号作者