Redian新闻
>
12项性能位居第一,中国最接近GPT-4的大模型来了!现已全面开放服务!

12项性能位居第一,中国最接近GPT-4的大模型来了!现已全面开放服务!

科技
金磊 发自 凹非寺
量子位 | 公众号 QbitAI

中国何时会有一个大模型,能以极强的泛化能力,创建各种智能体、成为人类真正的助手?

在各大科技公司卷了半年的生成式AI热潮趋于冷静期的当下,这是一个极其值得思考的问题。

很多人会说,目前可能只有被称为业界标杆的GPT-4才能胜任,甚至对它加以“唯一”这样的头衔。

而与此同时,着眼于国内,即使这半年来各个大模型玩家争先恐后抢着落地,但“需要两到三年才能追赶GPT-4”的声音也是甚上尘嚣。

然而就在最近,一个名为InternLM-123B的国产预训练大语言模型,似乎将这种差距感极大地给拉近了一些。

因为在一场顶尖大模型“同台竞技”中,它的表现实属有些亮眼:

• 12项成绩排名第一。
• 综合实力全球第二,部分成绩超越GPT-4。
• 绝大部分性能超越ChatGPT和LLaMa-2-70B。

据了解,这个评测是在全球51个知名评测集(包括MMLU、AGIEval、ARC、CEval、Race、GSM8K等)、共计30万道问题集合上测试所得到的结果。

而细看评测内容,不难发现在所有的阅读理解、绝大部分推理和常识问答方面,InternLM-123B拿到了绝对的风头。

那么这个国产大模型到底是什么来头?

不卖关子,它正是由商汤联合上海AI实验室等多家国内顶尖科研机构发布的最新大语言模型。

但其实要是追溯一下这个大模型,不难发现在2个月前(6月份),当时参数量为1040亿的InternLM便已经解锁了“首个综合能力超越GPT-3.5-turbo的基模型”的成就,成为当时国内首家在多项权威评测集上超越ChatGPT水平的基模型。

不仅如此,在近日商汤所披露的中期业绩报告中,更是将如此生成式AI技术,落地所带来的“成绩”曝了出来:

仅半年时间,生成式AI相关收入暴涨670.4%!

如此技术,如此成绩,那么不免让人发出疑问:

会是中国第一个达到GPT4水平的大模型吗?

若想赶超GPT-4,单是在技术上达到或超越它就并非是一件易事。

毕竟即使是人才、资金、算力都兼备的谷歌和Meta至今都未能达到它的水平。

而且超强的算力、高质量的数据、正确的训练方法等等,都是一环扣一环,直接会影响大模型性能的好坏。

有人会说,为什么非要做到GPT-4水平呢?用Llama 2开源模型不香吗?

那是因为,如果要让GPT-4驱动类似于AutoGPT那样的智能体,打造“工具调用”的可用境界,就必须要依赖强大的基座模型。

在“工具调用”这件事情上,强如GPT-4也只能做到80%的准确率,Llama的准确率只有40%。

数据来源:《On the Tool Manipulation Capability of Open-source Large Language Models》

再如落地方式上,经久不断的开源闭源之争,亦是抉择的一个难点。

因此,我们不妨从技术实力、落地应用和战略布局等方面,来看下商汤是否是一个值得被期待的“潜力股”。

一看技术实力

若是用一句话来概括商汤在技术上的打法,那便是“日日新大模型体系+SenseCore大装置”。

二者并非是简单的做加法那般叠加,而是之间有着深度融合的那种。

至于其技术实力效果,我们从大模型的迭代速度便可窥知一二。

早在今年四月,商汤便发布日日新大模型体系,成为国内第一批发布大模型的玩家之一;在国内大语言模型之战最白热化阶段,一口气将“生成式AI产品族”和盘托出——

商量(SenseChat)、秒画(SenseMirage)、如影(SenseAvatar)、琼宇(SenseSpace)和格物(SenseThings)。

它们分别对应的是自然语言交互、AI文生图、数字人、3D大场景重建、3D小物体生成这五个主流的生成式AI应用。

时隔仅仅两个月(今年6月),商汤再次联合上海人工智能实验室发布InternLM-104B版本,并且当时在三个全球权威测评基准中(MMLU、AGIEval、C-Eval)的表现就均已超越ChatGPT。

不仅如此,在大模型的“玩法”上,商汤也是国内众多玩家里最早引入“工具调用”的选手之一。

例如知识库挂载,实现了无需训练,便可快速融合知识生成;搭配企业知识库可以快速解决相关领域问题。

再如InternLM-Chat-7B版本,也是在这种“玩法”之下,成为了第一个具有代码解释能力的开源对话模型。

能够根据需要灵活调用Python解释器等外部工具,在解决复杂数学计算等任务上的能力显著提升;此外,该模型还可通过搜索引擎获取实时信息,提供具有时效性的回答。

并且从第三方对于大模型掌握工具能力的评估结果来看,InternLM-Chat-7B也是领先于主流“选手”。

在此之后,商汤大语言模型的发展,也就来到了我们最开始所提到的InternLM-123B,是仅次于GPT-4,综合实力位居全球第二的水平。

所以现在把发展路径中的几个重要迭代时间节点拎出来就是:四月→六月→七月→八月。

不得不说,快,着实是快。

在与商汤联合创始人兼大装置首席科学家林达华交流过程中,我们了解到如此迭代速度的背后还有一个“杀手锏”——数据处理。

这里所指的并非只是数据的总量,商汤更侧重的是足够强、高吞吐量的数据清洗能力。正如林达华所述:

一个性能强大的大模型,训练数据不仅规模要大,质量更要高;而且大模型的价值观和安全性也是依赖于此。

数据清洗的过程,犹如调制配方的实验,需要不断试错、不断重复,甚至从头再来。这个过程是每家训练大模型的公司都无法避免的过程,没有捷径可走。

OpenAI在无数场合都介绍过GPT4训练的经验,但从未公开过数据清洗的经验,这可谓是训练大模型的顶级机密。

商汤在数据清洗的过程中投入了上千块GPU的算力,并建立起大量系统化、工程化的途径来进行数据配方的试错,可以迅速发现大数据库中的有效数据再到小参数模型上进行验证。

从4月到8月,商汤花费了非常大的力气做数据清洗,过程中专注于补充和构建有多步骤的推理语料,形成一套非常高效的闭环进行模型的训练,使得模型的推理能力得到了大幅提升。

目前商汤每月能够产出约2万亿token的高质量数据,预计年底高质量数据储备将突破10万亿token,足以支持更加强大的基模型的训练。

通过数据清洗,商汤在中文语料的储备方面达到了一个相当高的水平,是业内领先的能力,因此在知识理解和推理方面都有非常优异的表现。

而如此迅猛的迭代速度和高质量数据清洗,定然是离不开大算力的加持,也就是商汤技术版图中另一个关键——SenseCore大装置。

早在2022年1月,商汤便交付使用了总投资高达56亿元的人工智能计算中心(AIDC),而且是“出道”即成为亚洲最大的AI超算中心之一。

一年前它的算力就已经高达了2500 Petaflops,可以轻松应对万亿参数的大模型;而时隔仅1年,这个数值便翻了一倍多,达到了6000 Petaflops。

有强大的算力,有高质量数据,加之商汤对于“玩转”大模型多年来沉淀的know-how,也就不难理解为何能拥有如此迅猛的迭代速度了。

二看落地应用

高质量的落地速度,是另一个关键点。

这也是目前趋于冷静的AIGC市场之下,各个大模型玩家所面对的骨感且实实在在的问题。

商汤可以说在这一点上提交了一份生成式AI相关收入暴涨670.4%的高分作业。

这个数据的亮相其实也并不意外,因为商汤在此前的活动中也早已对此有所披露。

例如结合商量2.0和秒画3.0的能力,商汤在移动端给客户带来了多种交互方面的“解法”。

针对信息获取的问答交互、生活场景的知识交互、语言和图像生成的内容交互等等,正因为商汤的大模型拥有轻量化版本,所以可以轻松在移动端上部署。

商汤还基于InternLM的轻量级模型,结合自研推理加速算法,与头部手机芯片厂商建立研发合作,成功实现了大语言模型的手机端实时计算能力。

……

而这仅是商汤将大模型落地应用的一隅,从众多案例来看,也正应了商汤联合创始人、执行董事徐冰的观察:

市场对于AIGC、大模型技术的需求是非常强烈的;谁能够在市场上迅速地推出对标业界领先能力的基模型,谁就能跑得更快一些。

我们在基础设施中投入如此大的力量,也是要解决市场对于大模型落地固有的碎片化的问题;让基模型的泛化能力强大起来,即便面对各种碎片化的需求都可以做到及时响应。

因此,商汤的落地速度,从某种层面上也可以视为“强技术”与“强需求”之间的双向奔赴了。

三看战略布局

自从大模型热潮以来,一个经久不断的话题便是“开源”和“闭源”。

其各自的优势也是越发的明显:

• 开源大模型:可以促进技术的共享和交流,加速人工智能的发展;避免闭源模式下的技术独霸和垄断,促进市场的公平竞争。
• 闭源大模型:可以保护知识产权,为公司带来经济效益;提高公司的核心竞争力,为公司在市场中占据优势地位。

但二者之争也是进展地如火如荼,国外大模型巨头亦是如此,最为典型的便是Meta正在以开源LLaMa系列来挑战 OpenAI的地位。

在这个关键问题上,商汤的战略布局与它们截然相反——不做选择题,都要。

例如在开源方面,商汤与多家科研机构合作支持和推进AI开源平台建设,InternLM-7B的部分训练数据、训练代码及基模型权重已经向学术界及工业界免费开源,并支持免费商用。

而在闭源方面,商汤目标打造具有竞争力且好用的“基座模型”,如同英伟达卖“硬的铲子”,商汤希望通过“软的铲子”,支持上万个潜在行业大模型的需求,真正解决行业痛点。

正如林达华表示:

二者是相辅相成、互补的,它们对产业来说都有着非常重要的价值。

开源能够让更多人接触到大模型这个技术本身。在这个过程中,它可以碰撞出更多火花,让大模型更好的应用起来,推动整个大模型生态的建设。我想对全行业来说,开源是一个非常正面的贡献。

而闭源对于企业在市场中形成技术和竞争力的壁垒起到至关重要的作用;未来若是能够将二者做很好的结合,会更好地推动大模型市场的发展。

与此同时,商汤还非常看重基模型的能力,因为在它看来,只有把基模型做得足够强,才能应对碎片化极高的市场需求。

这也应了徐冰的想法:

大语言模型也好,文生图模型、多模态模型等等也罢,它们的发展今年都遵循了同样的规律,就是先前碎片化,定制多;但现在转为追求强大的基模型能力,追求强大的泛化能力,能够直接接入到客户场景里面,做好适配能够很好地去迅速地形成商业上的价值变现闭环。

我们也粗略地估计了一下,全中国的行业大模型可能潜在的规模突破一万个,因为这里面的场景非常多,玩家也非常多。这些行业的大模型是需要基于一个强大的基模型能力去生产的,它很难凭空只针对某个领域的数据就把行业大模型做好,因为它缺少了基模型所能带来的一系列的涌现能力。

……

总而言之,有实力、有落地、有布局,商汤能否解锁“成为中国第一个达到GPT-4水平的大模型”,是值得期待一波了。

商汤刷新了自己

最后,我们再回到商汤本身。

若是要用一句话来评价商汤这次交出的“成绩单”,或许就是:

商汤自己刷新了自己。

曾几何时,大众和市场对于商汤的印象可能依旧是停留在“AI视觉技术公司”这个标签上。

但也正是这样的一个起点,如果站在当下这个时间节点回首,或许正应了现在非常流行那句话:命运的齿轮开始转动了。

现在大模型所需要的多模态技术,不论是自然语言处理,还是图像处理等,商汤已经早早涉足且深耕;现在大算力上的“一票难求”,商汤也是早早布局打造AIDC,为日后的大装置做好了充足的铺垫。

而且商汤更是在ChatGPT引爆AIGC大热潮之前,便已经在大模型领域着手研发。

并且在2019年,商汤便使用上千张GPU进行单任务训练,推出了10亿参数规模的视觉模型,并实现了当时业界最好的算法效果。

后来在2021年到2022年期间,商汤训练并开源了30亿参数的多模态大模型书生。

而当热潮退去,市场迎来落地大考之际,商汤又能将长期准备好的一系列的成果通过完备生产要素和生产资料、灵活的“玩法”和布局来应对。

因此,现在的商汤更像是一个新型技术基建平台,时刻在为即将到来且充满变数的未来在做着准备。

总而言之,商汤,是时候需要被重估了。

One More Thing

好消息!商汤大模型应用“商量SenseChat”即日起全面向广大用户开放服务了!

可戳下方链接了解一下:
https://chat.sensetime.com

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
明明猪比狗各项性能都好,为啥有警犬却没有警猪?国家文物局:加强博物馆暑期等节假日开放服务工作谷歌百人“复仇者联盟”出击!将发对标GPT-4的大模型,26位研发主管名单流出传《安乐传》711播出懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%腾讯的大模型来了百度、商汤等大模型产品获批,今日起全面开放上线实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用11家AI大模型陆续全面开放,菜鸟上线货架地图,存款利率再下降,传小米自研手机等系统今明两年落地,这就是今天的其他大新闻!俄罗斯科技巨头Yandex创建大模型YandexGPT,声称性能优于ChatGPT站上大模型制高点:我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘总分第一,算法模型第一,行业覆盖第一!国际权威测评文心大模型3.5一举得魁,独占鳌头领证跟拍、婚宴订单增多,“七夕”结婚登记热释放服务消费新活力明明猪比狗各项性能都好,为啥有警犬却没有警猪第一个超越ChatGPT的开源模型来了?网友并不买账全球首个支持输入20万字的大模型来了!一口气读几十个文档、一本20万字的小说基模型12项性能超越GPT-4,商汤语言大模型就等你来用科大讯飞在中国语音语义AI市场位居第一;美的集团与中国联通签订战略合作协议 | 绿研院日报4个月狂揽两千万,国内首个披露营收的大模型来了!HPV疫苗卖疯了?上半年默沙东中国市场收入反超阿斯利康位居第一官方的Code Llama开源:免费商用,神秘版本接近GPT-4GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法上海公布大模型政策;必应聊天月活接近15亿;ChatGPT开放代码解释器功能丨AIGC大事日报长篇小说《如絮》第一百四十八章 哈尔滨-1960年 山雨欲来明明各项性能都好,为啥有警犬却没警猪?历史名城耶路撒冷双林奇案录第三部之川黔连环案: 第三十八节英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报安卓版 ChatGPT 现已全面上线全美最贵社区出炉! 纽约位居第二, 第一竟是…烧烤店主、断网大叔都能用,中国移动打造出了最接地气的行业大模型explain benefits of focusing on underrepresented groups in colleGPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群全球“滥交指数”排名:澳洲位居第一,人均13.3个性伴侣!数据实在太惊人...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。