Redian新闻
>
首款大模型杀进C-Eval榜单前三,这家仅成立两个月的初创公司凭什么?

首款大模型杀进C-Eval榜单前三,这家仅成立两个月的初创公司凭什么?

公众号新闻
机器之心发布
机器之心编辑部


半年多来,国内大型模型如火如荼发展,已催生出「百模大战」的景象。


大模型哪家强,具体怎么评?这还要从一个权威的评估基准 C-Eval 说起。


C-Eval 是全面的中文基础模型评估套件,覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。不仅包含广泛的 NLP 任务,还能从众多高级 LLM 能力上对 LLM 进行评估。


就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。



榜单地址:https://cevalbenchmark.com/static/leaderboard.html


一、来自大湾区的大模型黑马


事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入榜团队,也是当时前十名中唯一的初创团队作品。


近日,共生矩阵又推出了全新的 GS-LLM-Beta 版本,发布即超越众多大模型产品,占据 C-Eval 榜单第三的位置。


GS-LLM-Beta 此次入榜,也从侧面印证了共生矩阵团队的技术实力。


首先,大模型领域的竞争格局是飞速变化的,我们也能看到日新月异的技术进展。在 GS-LLM-Alpha 发布仅仅 24 天后,共生矩阵就发布了更强大的 GS-LLM-Beta,并在性能上胜过大多数同类产品,展现出了作为「国内大模型硬核黑马」的研发速度和实力。


其次,自 C-Eval 榜单发布以来,一般排位五以下时常有变动,而在这之上的位置却很难撼动。目前性能超越共生矩阵的模型,包括智谱、GPT-4 和 APUS,都是千亿级别的模型,远大于共生矩阵的模型尺寸。能取得与这些「巨模型」媲美的性能,同样能够印证共生矩阵对大模型的驾驭能力完全具备领先水准。


据了解,共生矩阵还同时推出了 GS-LLM-mini 版本,旨在适配硬件条件有限的情况,更好地满足市场需求。


二、黑马是如何诞生的


一支名不见经传的黑马团队,如何在短期内直达榜单最前沿?这要从大模型技术的特殊性、共生矩阵团队的技术积淀两方面说起。


不同于传统的 NLP/CV 技术,大模型是近两年才崛起的技术,与以往的技术相比更为独立。就国内来说,真正具备大模型经验的队伍极少。而对于研发大模型来说,顶尖的人才与完整的技术体系积累是起到决定作用的。


共生矩阵团队成员在过去两年不仅在大模型工程上有着深厚积累,而且在理论方面也不逊于任何一支国内顶尖的大模型队伍。虽然只有不到十人的团队,但在近一年内累计发表了近二十篇顶级论文,甚至获得了大模型最前沿会议 ACL 的最佳论文提名,参与的大模型开源项目也获得了较高的下载量。


过硬的技术积累是共生矩阵团队取得成绩的坚实基础。大模型入榜的背后是来自于共生矩阵团队成熟的大模型技术体系的支撑,涵盖了从高效的训练框架到生成行为控制新技术。该框架能够自适应不同参数量级的模型,从 1B 到 200B 都可以兼容。为提高生成可控性,共生矩阵模型研发了独特的可控技术,做到灵活切换数据领域,该技术可以极大降低训练成本


此外,共生矩阵团队的自动化数据处理体系也是技术生态的重要一环,能高效、安全地获取高质量训练数据,能够持续支持大模型高效训练。


相比之下,国内众多知名团队在今年 ChatGPT 之后才开始涉足大模型领域,共生矩阵的技术优势显而易见,近期的一系列结果也应证了他们的实战能力。


换个角度看,共生矩阵的进展也再次说明了大模型竞争的核心在于人,人才密度决定其发展上限,资本不可或缺,但仅决定其发展下限。


三、起点还是终局?


共生矩阵的 CEO 张林博士认为,大模型的竞赛才刚刚开始,无论是技术还是商业化,都远不是资本市场认为的已定格局,用过去互联网发展的思维看待大模型是刻舟求剑,需要基于对技术深刻理解的基础上进行预判。


共生矩阵 CEO 张林。


从技术角度看,张林认为人类信息时代以来的发展可以总结为三个阶段:信息收集、信息传播和信息压缩,分别对应 PC 时代、移动互联网时代和今天的通用智能时代。第一阶段解决了如何获取信息,第二阶段实现了信息的低成本传播,直接导致今天面临的系统性信息过载,这也催生了以信息压缩为内核的通用智能时代。人类大脑容积几乎不变,如何把海量数据低损耗的压缩到大脑内是人类具备智能的基础,大模型是目前最好的信息压缩机。通用智能技术的发展方向要朝着更高效的压缩模型前进!


从商业角度看,革新性技术必然催生新的商业模式。然而当前大模型公司普遍定位为 MaaS 服务,这必然会走向失败的,因为边际成本过高。更致命的错误是,这种思维是将大模型当成独立软件来看,依此将大模型商业化定位互联网时代的软件进行售卖。大模型要发挥价值,必然不能以孤立系统存在,而是成体系的生态,大模型的商业化也必然立足于某种生态系统来构建。


四、市场的噪声


然而,大模型初创公司也面临着一系列的挑战,特别是目前大模型市场混乱,各种真假难辨的大模型,以及开源模型的出现,诸如 Llama-2,给消费市场和投资人造成了相当程度上的认知错乱。撇开所谓套壳子的大模型团队,更多的舆论来自于开源 Llama-2 的影响。


某种意义上说,开源 Llama-2 系列的价值或许没有想象中巨大,特别是对具备自研能力的团队没有任何实质性的冲击。因为大模型涉及到一个体系,包括模型优化,人类行为对齐,模型压缩,模型控制等,这些都是 Llama-2 没办法提供的。在整个大模型研究和应用的流程中,Llama-2 只解决了最开始的部分,那就是预训练,而这一步是全流程中技术最简单、价格最便宜的一个环节。要把大模型落地实现商业价值,仅仅依赖开源的预训练结果是远远不够的,必须要体系化的技术支撑,预训练之后环节更难也更考验能力。


从实际结果来看,大模型市场并没有因为 Llama-2 的开源带进来新的实力玩家,目前开源仅有 Meta 一家,OpenAI、谷歌、Anthropic 占据闭源生态。效果上 Meta 的模型比其他几家弱很多,所以绝大部分的大模型核心技术无法通过开源获得。投资人也并没有因为 Llama-2 开源给 Meta 更多的投资,反而是其他几个闭源玩家获得大额投资。作为自研团队,共生矩阵不纠结开源与否,坚持以用户的体验为第一目标,将通用智能服务到千行百业。


五、通用智能的下一站,谁主沉浮?


大模型之战,源起 OpenAI 的 ChatGPT。ChatGPT 固然带来了巨大的提升,但只是代表了现阶段人工智能的发展程度,我们所期待的通用智能远不止于此。


ChatGPT 为代表的大模型存在的固有问题,难以在原有框架打补丁即可解决。譬如序列逐词生成的范式难以做到高效的生成可控,需要在理论层面有较大突破才行。


谁会是下一个理论突破者呢?面对这个问题,真正的答案未必是某一家科技巨头和今天所看到的明星公司,但肯定会是一支拥有硬核研发能力的团队。


当然,未来的探索之路还很漫长。底层研发能力是共生矩阵团队的长期优势所在,也是今后取得重大突破的必要性条件。我们也希望中国的科研人员能够引领下一阶段人工智能技术的突破。


五月,在深圳南山的一家汉堡王店,一群年轻人讨论着通用智能技术的未来,不满足于只是追随他人,他们希望打造中国的通用智能技术旗帜,于是共生矩阵团队诞生了。他们说创业的每一天都很难,但每一天都充满着希望。



不到一个月就取得了排名前三的亮眼成绩,共生矩阵展示了他们强大的算法能力,和对大模型的控制力。但他们认为模型任然有不少改进的空间,接下来几个月他们会做一些更有意思的事情。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
房地产中的数字梦想:认识加拿大 15 家最具创新力的初创公司飞到旧金山在水上降落独家丨华为重仓大模型,成立两大组织:AI算力平台先遣组、数据中心军团AI大牛何恺明加入MIT;杭州设5000万元/年算力券;华为被曝为大模型成立两大组织丨AIGC大事日报AI公司第四范式IPO上市;雷军王小川联手搞小米大模型;百度发布量子领域大模型;AI新技术90秒识别癌;苹果疯狂购买AI初创公司David Baker:实验室正开展多个适应症研究,今年或有3-4家初创公司成立技术源自诺奖,吸金超7亿美元,成立2年的初创面临裁员以「提高效率」𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~又一批千万富翁!这家初创公司遭天价收购,每位员工价值$2100万离职谷歌,75岁Hinton官宣下场AI机器人!加盟初创公司,师徒再联手,打造「基础模型」清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单初创公司如何与大企业竞争?公路骑车的安全性或危险性被ChatGPT母公司抢了生意,这些初创公司还有活路么?13亿美元!!!Databricks巨资收购大模型初创公司MosaicML!!!OpenAI的首次公开收购,为什么是这家仅成立两年的八人设计公司?【科普】为什么他们更想去初创公司而非科技大厂?5 年内,人类程序员将不复存在?10亿美金AI初创公司CEO语出惊人专访佗道医疗程敏:扎根五大赛道,布局“大而全”的初创公司该怎么走?大模型改变世界,这家公司改变大模型卡尔加里APP开发新星:15 家颠覆传统规范的初创公司在白热化的运营商竞争中,这家公司凭场景化服务创新找到市场空间A轮融资4200万美元,与辉瑞、默克等MNC合作,这家公司凭什么从“六月节”看弱势的华裔群体硅谷初创公司即将弹尽粮绝?风投不愿投资年底或现倒闭潮双林奇案录第三部之川黔连环案: 第三十三节又是一批千万富翁!湾区初创公司遭天价收购,每位员工价值$2100万成立两年卖到5亿美元,3个关键点让Selena Gomez的美妆品牌突破红海中国媒介代理商榜单:蓝标跻身前三,群邑稳居第一美国初创公司股权架构全面揭秘!冠军基金经理又摘"第一"!近一个月包揽前三,什么情况?百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」邂逅香格里拉阿里巴巴领投AR眼镜初创公司
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。