Redian新闻
>
10人俩月搞出大模型!一年16篇顶会论文加持:市面上做得好的都没有开源

10人俩月搞出大模型!一年16篇顶会论文加持:市面上做得好的都没有开源

公众号新闻
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

一家今年5月份成立在深圳的公司,团队至今不到10人。

他们要做的却不是小事:挑战AGI

底气在哪?一看过往履历,二看现在赛道的成绩。

这几个人近一年中,累计在CVPR、ICML、ECCV等顶会上发表16篇大模型相关论文,其中一篇还拿下了顶会ACL 2023的最佳论文提名。

创业后的成绩如何?成立两个月后,所训模型杀入C-Eval榜单前三,中文能力击败ChatGPT和Claude-v1.3。

这就是共生矩阵拿出的成绩。

并且旗下模型GS-LLM七月末首次上榜至今,在C-Eval榜单65个上榜选手中,一直处于第一梯队。

那么,共生矩阵是谁?

10个人挑战AGI

共生矩阵,目标立足自研AGI技术,打造行业数据精炼工厂。

团队所依托的主要是自研大模型GS-LLM。

模型参数规模从7B-130B不等,能根据用户的实际需求量体裁衣。

在C-Eval上占据一席之地的有基于GS-LLM的两个版本,一个是百亿参数版本的GS-LLM-Beta,另一个是不足百亿规模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是发现不少使用者,原有的运作环境(甚至云端环境)不足以支撑大体量的本地部署。

测试结果发现,几十亿版本的GS-LLM-Beta就可以发挥不错的性能,在C-Eval上最好排名达到第6。

能够常驻C-Eval榜单前列的原因之一,是共生矩阵搭建了一套完全独立的训练框架,对整个训练构成比较完备的技术支撑。

第二个点在数据,这是这家公司格外重视的一点。

共生矩阵CEO张林举了个简单的例子:

把模型训练比作人的成长过程。如果他从小看的都是没有营养的小说,这个人的总体能力不会太强。

去年团队在一个实验中发现,当模型数据达到某一数量级时,数据质量的跃升反而能引起一些质变

“也就是说,有一个相对小体量(如百亿级别)的模型,喂给它高质量的数据,训练出来的结果和千亿级别的结果是很接近的。”张林说。

这个实验也让团队对数据质量、体系化获取高质量数据途径的重视再+1。

其实这点近期越来越引起各界注意,微软就有一项新研究《Textbook are all you need》,工作表示,做大不是唯一的出路,高质量的数据才是至关重要的。

于是乎,共生团队构建了一套清洗数据的工程化体系,24小时持续清洗数据。

团队目前清洗出的可以用于训练的文本数据,大约有20T,“这个量级能够支撑非常大体系的模型训练”。

不过张林也透露,短期内共生矩阵不会对外公开团队清洗出的数据。

那么,团队想打造的数据精炼工厂又是什么概念?

张林解释,如果把大模型理解为“信息的压缩”,那么它本身就是一个体量很大的参数数据库。

数据精炼工厂要做的事,就是将模型训练好后的参数数据进行共享和交易。

要知道,大模型的功能是通过参数来承载的,交易参数其实就是切换功能,我们需要大模型功能的多样性,“参数交易是最高效的路径”。

这里指的数据不是大家看得到的那种数据,而是参数数据。我们常说的数据是一段文本、一张图片,而工厂拥有的数据是模型训练好的参数,对参数进行商业化交易。

“原始数据直接进行交易,受到量级大、隐私问题等掣肘。”张林解释,数据交易的概念已经提了很多年了,但并没有完全被市场接受,团队认为想要数据真正流通起来,需要更合理、安全、有效,因此最终确定了参数层面的数据交易。

在团队设想中,数据精炼工厂跑通后,部分数据不用重复训练,效率提升,成本也可降低。

用更少的人和资源把大模型体系做好

大模型热潮中,如何评价大模型成为重要问题,这也是各类榜单雨后春笋出现的原因。

共生矩阵上榜C-Eval后,外界聚焦来的目光主要有2点:

除了成绩不错外,另一个惹人关注的点是,他们是榜上少见的小型团队

团队表示,榜单并不是全世界唯一最权威,但成立一个月开始上榜,一度杀进前三,能够反“我们用更少的人和资源把大模型体系做好”。

没错,共生矩阵团队只有不足10人。

人不多,但都挺能打——

CEO张林、CTO王军杰等团队中的核心都出自IDEA研究院,在国内封神榜预训练模型开源体系工作中有丰富实战经验(据悉,封神榜目前已有超过98个开源预训练模型)

张林本人博士毕业于美国纽约州立大学,在计算机国际顶会上发表过三十多篇论文,此前是粤港澳大湾区数字经济研究院(IDEA)资深高级研究员。

王军杰则是早稻田大学的计算机博士,此前是封神榜大模型团队的核心成员。

张林

纵观当下的AI市场,小团队搞好AI并不是没有先例,最负盛名的文生图模型Midjourney背后,只有11个成员,被称为新时代组织的标杆。AI 2.0时代,国内外也出现了诸多讲求“小而美”的大模型创业团队。

当然,张林表示更深层原因,是因为大模型不是简单堆人力的项目,需要少数精英式团队以保证效率。

他表示训练模型时,技术层面如算子优化、混合精度等,以及背后几百张卡同时支持时通信层面的问题,都非常考验工程能力。小团队如果能将遇到的工程性问题解决,提高效率,不必靠大团队解决。

另外,技术核心小团队更有利于保持思想独立性,不墨守成规以探索更多可能性,堆人力反而容易降低整体效率。

据他预估,全国大模型领域顶尖的人才“加起来可能也就100人左右”,也没什么组建大团队的空间。

因此,团队将在一定时间内保持“不足十人”这个规模。

归根结底,这是对AI 2.0时代与AI 1.0时代背后范式和理念的理解不同。

交流过程中,张林还很直接地表达了团队在另一层面与主流声音的不同理解,它体现在开闭源理念上。

前段时间,免费可商用的LLaMA-2一出,不少人都表示这对市面上的创业公司将是巨大打击,因为LLaMA-2可以满足大多数公司对更低成本和个性化的需求。

“LLaMA-2并没有改变市场格局。”共生团队眼中,真正领先的团队并不会开源核心技术。

张林还补充道在当前阶段,开源的意义更多在于教育市场,而非推动商业化

就像树莓派对电子发烧友有意义,但不会改变手机电脑市场一样,LLAMA 2对入门级用户较有价值,但对要做商业化的用户影响不大。

像这样带点“非主流”的观点和理解,共生矩阵还有不少。

比如不认为大模型就是通用AI的终点,也不认为ChatGPT代表终极方向

他们对独角兽式快速扩张也持谨慎态度,更重视团队凝聚和技术积淀。

……

对于未来的发展路线,共生矩阵选择短期内先闭源,未来在合适的机遇下可能适当开源。

开源需要有明确的商业驱动目标,当前大模型技术仍处于快速迭代和竞争阶段,开源核心技术有丧失先发优势的风险。

— 联系作者 —

「量子位智库·大模型人才沙龙」招募中

「量子位智库·大模型人才沙龙」将于9月下旬在北京中关村举办,欢迎大模型各领域玩家参与~

点击图片了解详情,企业报名可联系活动负责人王琳玉(微信:iris_wang17,请备注企业+姓名)。

沙龙观众通道后续开放,敬请期待~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开源大模型FLM-101B:训练成本最低的超100B参数大模型盘点市面上的“原版教材”,我劝你这几套千万别选!市面上坚果的花样越来越多,到底哪种值得买?本科生狂发三篇顶会,已经卷到如此地步了吗?全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokensT工作室《马里奥进化桶》:市面上最精彩的马里奥雕像!古诗词随想(一)她提升了你生命的價值 ——臥龍崗徜徉的啟迪霸榜测评的开源大模型,为何是阿拉伯人搞出来的?桃红柳緑,球场三伏VLDB顶会论文解读 | PolarDB MySQL高性能强一致集群核心技术详解一日一诗:青春一旦变凉 / 就可以在你身上做 / 秋风在鄂西北群山上做的事情 | 余修霞 :在你身上,做风ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐如何以优雅轻松的姿态发表一篇顶会论文?从108篇顶会论文看大语言模型时代的推荐系统风波之后,Unity高管接受采访:我们在倾听反馈上做得远远不够至少8篇顶会!英伟达LLM研究科学家岗位门槛狂卷,震惊前谷歌大脑科学家NLP年终盘点!2023年顶会论文合集(含ACL、EMNLP、NAACL、AAAI等)99%的人都没吃过!更鲜美的鹿肉,为什么市面上少见?UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源11年逆袭,寒门专升本职高生终成MIT博士生!自学CMU课狂发5篇顶会,全网热议斯洛文尼亚 卢布尔雅那33篇顶会论文?CV论文投稿到接收,不可不知的关键环节!顶会CoRL 2023获奖论文出炉!华人团队获最佳论文、最佳系统论文!11年逆袭,寒门专升本职高生终成MIT博士生!自学CMU课狂发5篇顶会,GitHub全网热议我中了CVPR顶会论文以后....昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源HashiCorp CEO 预测,除非开源模型发展,否则硅谷将没有开源公司 | Linux 中国计算机直博毕业要求两篇顶会一作难度如何?NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS40篇顶会?我不李姐孔子,生命的觉醒对话沈抖:今天市面上有很多大模型,但大部分会迅速消失5分钟搞出大模型应用!阿里云通义“全家桶”来了,从基础设施到应用平台全栈技术UP值得一试的开源模型!开源社区上季度都有哪些靠谱项目?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。