Redian新闻
>
10人俩月搞出大模型!一年16篇顶会论文加持:市面上做得好的都没有开源

10人俩月搞出大模型!一年16篇顶会论文加持:市面上做得好的都没有开源

公众号新闻
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

一家今年5月份成立在深圳的公司,团队至今不到10人。

他们要做的却不是小事:挑战AGI

底气在哪?一看过往履历,二看现在赛道的成绩。

这几个人近一年中,累计在CVPR、ICML、ECCV等顶会上发表16篇大模型相关论文,其中一篇还拿下了顶会ACL 2023的最佳论文提名。

创业后的成绩如何?成立两个月后,所训模型杀入C-Eval榜单前三,中文能力击败ChatGPT和Claude-v1.3。

这就是共生矩阵拿出的成绩。

并且旗下模型GS-LLM七月末首次上榜至今,在C-Eval榜单65个上榜选手中,一直处于第一梯队。

那么,共生矩阵是谁?

10个人挑战AGI

共生矩阵,目标立足自研AGI技术,打造行业数据精炼工厂。

团队所依托的主要是自研大模型GS-LLM。

模型参数规模从7B-130B不等,能根据用户的实际需求量体裁衣。

在C-Eval上占据一席之地的有基于GS-LLM的两个版本,一个是百亿参数版本的GS-LLM-Beta,另一个是不足百亿规模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是发现不少使用者,原有的运作环境(甚至云端环境)不足以支撑大体量的本地部署。

测试结果发现,几十亿版本的GS-LLM-Beta就可以发挥不错的性能,在C-Eval上最好排名达到第6。

能够常驻C-Eval榜单前列的原因之一,是共生矩阵搭建了一套完全独立的训练框架,对整个训练构成比较完备的技术支撑。

第二个点在数据,这是这家公司格外重视的一点。

共生矩阵CEO张林举了个简单的例子:

把模型训练比作人的成长过程。如果他从小看的都是没有营养的小说,这个人的总体能力不会太强。

去年团队在一个实验中发现,当模型数据达到某一数量级时,数据质量的跃升反而能引起一些质变

“也就是说,有一个相对小体量(如百亿级别)的模型,喂给它高质量的数据,训练出来的结果和千亿级别的结果是很接近的。”张林说。

这个实验也让团队对数据质量、体系化获取高质量数据途径的重视再+1。

其实这点近期越来越引起各界注意,微软就有一项新研究《Textbook are all you need》,工作表示,做大不是唯一的出路,高质量的数据才是至关重要的。

于是乎,共生团队构建了一套清洗数据的工程化体系,24小时持续清洗数据。

团队目前清洗出的可以用于训练的文本数据,大约有20T,“这个量级能够支撑非常大体系的模型训练”。

不过张林也透露,短期内共生矩阵不会对外公开团队清洗出的数据。

那么,团队想打造的数据精炼工厂又是什么概念?

张林解释,如果把大模型理解为“信息的压缩”,那么它本身就是一个体量很大的参数数据库。

数据精炼工厂要做的事,就是将模型训练好后的参数数据进行共享和交易。

要知道,大模型的功能是通过参数来承载的,交易参数其实就是切换功能,我们需要大模型功能的多样性,“参数交易是最高效的路径”。

这里指的数据不是大家看得到的那种数据,而是参数数据。我们常说的数据是一段文本、一张图片,而工厂拥有的数据是模型训练好的参数,对参数进行商业化交易。

“原始数据直接进行交易,受到量级大、隐私问题等掣肘。”张林解释,数据交易的概念已经提了很多年了,但并没有完全被市场接受,团队认为想要数据真正流通起来,需要更合理、安全、有效,因此最终确定了参数层面的数据交易。

在团队设想中,数据精炼工厂跑通后,部分数据不用重复训练,效率提升,成本也可降低。

用更少的人和资源把大模型体系做好

大模型热潮中,如何评价大模型成为重要问题,这也是各类榜单雨后春笋出现的原因。

共生矩阵上榜C-Eval后,外界聚焦来的目光主要有2点:

除了成绩不错外,另一个惹人关注的点是,他们是榜上少见的小型团队

团队表示,榜单并不是全世界唯一最权威,但成立一个月开始上榜,一度杀进前三,能够反“我们用更少的人和资源把大模型体系做好”。

没错,共生矩阵团队只有不足10人。

人不多,但都挺能打——

CEO张林、CTO王军杰等团队中的核心都出自IDEA研究院,在国内封神榜预训练模型开源体系工作中有丰富实战经验(据悉,封神榜目前已有超过98个开源预训练模型)

张林本人博士毕业于美国纽约州立大学,在计算机国际顶会上发表过三十多篇论文,此前是粤港澳大湾区数字经济研究院(IDEA)资深高级研究员。

王军杰则是早稻田大学的计算机博士,此前是封神榜大模型团队的核心成员。

张林

纵观当下的AI市场,小团队搞好AI并不是没有先例,最负盛名的文生图模型Midjourney背后,只有11个成员,被称为新时代组织的标杆。AI 2.0时代,国内外也出现了诸多讲求“小而美”的大模型创业团队。

当然,张林表示更深层原因,是因为大模型不是简单堆人力的项目,需要少数精英式团队以保证效率。

他表示训练模型时,技术层面如算子优化、混合精度等,以及背后几百张卡同时支持时通信层面的问题,都非常考验工程能力。小团队如果能将遇到的工程性问题解决,提高效率,不必靠大团队解决。

另外,技术核心小团队更有利于保持思想独立性,不墨守成规以探索更多可能性,堆人力反而容易降低整体效率。

据他预估,全国大模型领域顶尖的人才“加起来可能也就100人左右”,也没什么组建大团队的空间。

因此,团队将在一定时间内保持“不足十人”这个规模。

归根结底,这是对AI 2.0时代与AI 1.0时代背后范式和理念的理解不同。

交流过程中,张林还很直接地表达了团队在另一层面与主流声音的不同理解,它体现在开闭源理念上。

前段时间,免费可商用的LLaMA-2一出,不少人都表示这对市面上的创业公司将是巨大打击,因为LLaMA-2可以满足大多数公司对更低成本和个性化的需求。

“LLaMA-2并没有改变市场格局。”共生团队眼中,真正领先的团队并不会开源核心技术。

张林还补充道在当前阶段,开源的意义更多在于教育市场,而非推动商业化

就像树莓派对电子发烧友有意义,但不会改变手机电脑市场一样,LLAMA 2对入门级用户较有价值,但对要做商业化的用户影响不大。

像这样带点“非主流”的观点和理解,共生矩阵还有不少。

比如不认为大模型就是通用AI的终点,也不认为ChatGPT代表终极方向

他们对独角兽式快速扩张也持谨慎态度,更重视团队凝聚和技术积淀。

……

对于未来的发展路线,共生矩阵选择短期内先闭源,未来在合适的机遇下可能适当开源。

开源需要有明确的商业驱动目标,当前大模型技术仍处于快速迭代和竞争阶段,开源核心技术有丧失先发优势的风险。

— 联系作者 —

「量子位智库·大模型人才沙龙」招募中

「量子位智库·大模型人才沙龙」将于9月下旬在北京中关村举办,欢迎大模型各领域玩家参与~

点击图片了解详情,企业报名可联系活动负责人王琳玉(微信:iris_wang17,请备注企业+姓名)。

沙龙观众通道后续开放,敬请期待~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS至少8篇顶会!英伟达LLM研究科学家岗位门槛狂卷,震惊前谷歌大脑科学家VLDB顶会论文解读 | PolarDB MySQL高性能强一致集群核心技术详解5分钟搞出大模型应用!阿里云通义“全家桶”来了,从基础设施到应用平台全栈技术UP盘点市面上的“原版教材”,我劝你这几套千万别选!和市面上买的不一样!超超超嫩印度秋葵,没吃过这么鲜嫩的!农场新鲜到货!HashiCorp CEO 预测,除非开源模型发展,否则硅谷将没有开源公司 | Linux 中国霸榜测评的开源大模型,为何是阿拉伯人搞出来的?从108篇顶会论文看大语言模型时代的推荐系统市面上坚果的花样越来越多,到底哪种值得买?昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源值得一试的开源模型!开源社区上季度都有哪些靠谱项目?计算机直博毕业要求两篇顶会一作难度如何?T工作室《马里奥进化桶》:市面上最精彩的马里奥雕像!33篇顶会论文?CV论文投稿到接收,不可不知的关键环节!对话沈抖:今天市面上有很多大模型,但大部分会迅速消失99%的人都没吃过!更鲜美的鹿肉,为什么市面上少见?孔子,生命的觉醒40篇顶会?我不李姐顶会CoRL 2023获奖论文出炉!华人团队获最佳论文、最佳系统论文!11年逆袭,寒门专升本职高生终成MIT博士生!自学CMU课狂发5篇顶会,全网热议我中了CVPR顶会论文以后....她提升了你生命的價值 ——臥龍崗徜徉的啟迪UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源古诗词随想(一)11年逆袭,寒门专升本职高生终成MIT博士生!自学CMU课狂发5篇顶会,GitHub全网热议斯洛文尼亚 卢布尔雅那一日一诗:青春一旦变凉 / 就可以在你身上做 / 秋风在鄂西北群山上做的事情 | 余修霞 :在你身上,做风风波之后,Unity高管接受采访:我们在倾听反馈上做得远远不够NLP年终盘点!2023年顶会论文合集(含ACL、EMNLP、NAACL、AAAI等)桃红柳緑,球场三伏如何以优雅轻松的姿态发表一篇顶会论文?全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokensICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐本科生狂发三篇顶会,已经卷到如此地步了吗?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。