Redian新闻
>
马斯克xAI首个研究成果发布!创始成员杨格&姚班校友共同一作

马斯克xAI首个研究成果发布!创始成员杨格&姚班校友共同一作

公众号新闻
西风 鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

马斯克的xAI,首项公开研究成果来了!

共同一作之一,正是xAI创始成员、丘成桐弟子杨格(Greg Yang)。

此前,杨格就曾公开表示,自己在xAI的研究方向是“Math for AI”和“AI for Math”。

其中一项重点就是延续他此前的研究:

描述神经网络架构的统一编程语言Tensor Programs——相关成果,在GPT-4中已有应用

这次的新论文,就归属该系列,重点探讨了“如何训练无限深度网络”。

为此,杨格本人还专门在𝕏上进行了一场直播分享。

一起来看看有哪些精彩内容值得mark~

训练无限深度神经网络

简单来说,这篇文章研究的是残差网络(ResNet)在深度方向的扩展。

我们知道,残差网络解决了深度增加时,深度卷积神经网络性能退化的问题。但当网络继续加深,训练一个好的深度残差网络仍非易事:

当网络加深时,特征的规模会不断增大,导致网络不稳定;加深网络后,需要重新调整超参数,工作量不小……

杨格和他的小伙伴们的想法是,找到一种深度参数化方法,既可以学习特征,又可以实现超参数迁移。

他们首先想到了无限宽神经网络存在的两种极限情况:要么是核机(kernel machines),要么是特征学习器(feature learners)。对于后者而言,最佳超参数是不会随宽度变化而变化的。

在这里,他们使用Tensor Programs框架分析了无限宽网络的极限情况。

正如前文提到的,Tensor Programs是杨格的一项长期研究目标:用数学语言,建立能够描述和分析神经网络架构的底层编程语言

具体而言,Tensor Programs由矩阵乘法和激活函数组成。杨格发现,如果神经网络函数能够使用这种语言表达,就可以自动且完备地进行初始化分析。

数学推导的部分,这里不做具体展开,我们可以浅浅感受一下画风……

在这些推导分析的基础之上,作者提出了Depth-μP方法,可以实现深度方向上的超参数迁移,大大简化了不同深度下的超参数调节。

Depth-μP包含以下要点:

  • 每个残差分支和深度L的平方根成反比的系数a/sqrt(L)。

  • 每个权重矩阵的学习率随深度L变大而减小,具体取决于优化算法的类型。对于SGD,学习率取常数η,对于Adam等自适应优化算法,学习率取η/sqrt(L)。

值得关注的是,作者发现,当残差块深度为1时,Depth-μP是深度参数化的最优方式,可以保证超参数随着深度的增加而收敛,实现深度方向的超参数传递。

但当残差块深度≥2时,还是会出现超参数迁移失败和训练性能下降的问题。

另外,论文还探讨了“特征多样性”的概念,认为它在深度网络中发挥着关键作用。

论文的另一位共同一作是来自普林斯顿的Dingli Yu。他本科毕业于清华姚班,目前在普林斯顿计算机科学系攻读博士。

杨格在直播中都说了啥?

在直播中,杨格还就观众感兴趣的问题进行了解答。在不改变原意基础上,量子位对部分问题做了梳理。

Q:对于我们许多人来说,(论文内容)可能超出了我们的理解范围。但我想知道,你提到的模型与我们能够体验到的ChatGPT以及OpenAI的技术有何不同?这篇论文与OpenAI的成果相比有什么显著的差异或是创新点?

杨格:我简单评论一下,我想说这些特性目前与实际应用并没有直接关系,更像是研究性质的。

当然,做这一切的最终目标是为了让模型更好、更安全,然后造福人类。我们现在所进行的是描述预期的效果,它不一定会有直接的影响。

现在我们同处一条船上,我们正在做我们所能做的事,无论是短期工作还是长期应用研究,都是为了让它造福每个人。

Q:听起来像是你们正在建造一个能够进行推理的人工计算机大脑,所以这是你们正在研究的吗?此外,我还是一位母亲,我7岁的儿子对数学非常感兴趣,你有什么可以让他继续对AI领域保持兴趣和热情的建议吗?

杨格:“新型网络”指的是人工神经网络,我认为它是现代众多技术的支柱,包括您每天使用的Google、Facebook、Instagram等,这些服务的底层都使用了这些人工神经网络。这些网络大约在六七十年前受到动物、人类的真实神经网络启发而诞生,但已与真实的神经科学有所偏离。

这些网络本质上是数学问题,因此我们掌握这些新的数学问题后进行大量分析,可以深入地理解这些神经网络。

虽然我们尚不明确真正的神经元的连接方式,但通过数学研究,我们能优化这些人工神经网络,助力科技公司改善人们的生活。

关于您的第二个问题,听说您的儿子对数学非常感兴趣,这太棒了。这是在技术领域创造伟大成就和改善每个人生活的基础。

我想给的建议是,首先您要保持您儿子对数学的热情,这非常重要。一旦失去了这份热爱,想再继续学习就会变得很困难。

还要注意观察他喜欢的东西,让学习过程变得有趣,进一步激发他的兴趣。同时,也要培养他对事物运作原理的好奇心,并尝试培养一种科学思维,要在好奇心的驱使下研究。就像拆解事物,尝试理解它们的工作原理。

如果一个人失去了对宇宙数学真理的探索热情,可能很难再有前进的动力。总的来说,我建议您培养您儿子对这个世界,特别是对数学和科学本质的浓厚兴趣和好奇心。

Q:我有一个更为抽象的问题。你有了深度趋近于无穷的想法,然后根据这种想法写了这篇论文。那你是否考虑过采用不同架构的神经网络?不是带有神经元和无数层的标准架构,而是完全不同的东西。比如这些神经元的连接方式完全不同,也许是某种正方形?

杨格:其实关于非线性以及我们这项工作中对层数的洞察,都只是非常初级的研究。关于什么是合适的结构,或者应该是怎样的结构,当然还有很多可以探讨的问题。

像Meta团队之前就研究了随机连接神经元会发生什么,得到了一些有趣的结果。所以,这里绝对还有很多可以做的事情。现在我确实没有具体的答案来说什么将是正确的或者更好的结构。

关于杨格

杨格出生于湖南省,小学毕业后去了美国,本科就读于哈佛师从丘成桐教授。

杨格与丘成桐,图源:杨格推特

2017年,杨格哈佛毕业,之后在沈向洋引荐下进入微软。

在微软,杨格获得了沈向洋的高度评价。几个月前,在一场名为“基础科学与人工智能”的论坛上,沈向洋公开表示:

微软研究院平时只招博士生的,杨格作为一个本科毕业生进了微软研究院。不仅进了微软研究院,过去这五年还做得无比优秀,特别是在GPT发展过程中做了举足轻重的贡献。

值得一提的是,他本人也曾承认GPT-4就用到了他的μTransfer(Tensor Programs系列)方法。

而杨格对Tensor Programs的研究,从很早就开始了,2019年就发表了“Tensor Programs I”,在微软工作时也是持续深入探索。他认为深度学习中几乎任何计算都可以表示为Tensor Programs。

今年7月,马斯克宣布成立新公司xAI,杨格离开微软,加入xAI创始团队,成为xAI的数学家。

加入xAI后,杨格不止一次透露Tensor Programs项目长期目标是开发大规模深度学习的“万物理论”,也就是找到一种理论上的规则,可以真正理解AI大模型的行为

他还表示:

AI将使每个人都能以此前难以想象的方式理解我们的数学宇宙。

论文链接:https://arxiv.org/abs/2310.02244

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
长篇小说《如絮》 第一百八十五章 旧金山-2007年 向日葵喜报 |康朴生物医药完成近亿元B+轮融资、中国首个TCR-T产品I期临床研究成果公布Nucleic Acids Research | 德州学院“山东省生物物理重点实验室”发布EVLncRNAs数据库最新研究成果大咖云集、重磅成果发布!马斯克xAI发布首个AI聊天机器人Grok,可对话X用户,并能回答“敏感问题” | 环球科学要闻"美国许多科学实验都获益于中方的研究成果,还是免费的"早财经丨超级黄金周将至,国内热门酒店预订量暴涨超5倍;申遗成功!我国再添一处世界遗产;国内首个研究生商业性助学贷款产品落地【回国记录】我的初恋连发2篇Science,去年刚评上研究员,今年获国家杰青资助!复旦大学桑庆研究员研究成果集锦!三木&水晶 ~~星星住进你眼睛~~符合广义相对论的预测,M87黑洞最新研究成果登上Nature联想推出AI PC;马斯克xAI首个研究成果发布;苹果计划每年投入10亿美元发展AI|AIGC周观察第二十二期今天去Manhattan,离E 73rd St & York Ave 比较近的有什么好的餐厅,包括中餐厅可以推荐安徽印发AGI产业扶持政策;马斯克xAI首批产品曝光;钉钉AI全家桶上线丨AIGC大事日报马斯克𝕏AI首批产品曝光!「提示词工作站」来了,本人现身评论区Adv Mater | 王伟团队发表肿瘤免疫治疗最新研究成果目录详解|合规从业者人手一套的《中国中小企业合规指南》收录了哪些研究成果?Nature Chemical Biology | 肖易倍/陈美容团队发表新型细菌免疫机制研究成果《忘记他》 &《The Joker and the Queen》by 蜀风雅韵大模型生成提速2倍!单GPU几小时搞定微调,北大数院校友共同一作丨开源看看历史上辱华漫画----就知道为何“僵尸”受罚了。。。。马斯克 xAI首个研究成果发布;苹果计划每年投资10亿美元发展生成式AI;多位G7领导人将不参加11月英国AI峰会丨AIGC日报惨遭挖墙脚,星空联盟创始成员将转投天合联盟,航司联盟版图将有重大变化马斯克xAI首个研究成果发布!如何把ResNet训练无限深度?Cell子刊 |肠道真菌可预测肿瘤免疫治疗疗效!仁济医院陈豪燕/洪洁团队最新研究成果创新成果发布!盘古大模型助力福田实现城市“智”理中华文明探源工程最新成果发布!李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型西湖大学刘晓东教授研究成果再登Nature:通过“格式化”细胞记忆,获得超能iPSCs!诱惑真实再现生物脊柱功能,老鼠机器人也能像杰瑞一样灵活,Science Robotics 发布老鼠机器人最新研究成果重组带状疱疹疫苗对中国人群保护效力如何?首个研究结果公布马斯克xAI首项成果发布;拜登等G7领导人不参加英国AI峰会;苹果计划每年投10亿美元发展AIGC丨AIGC大事日报撵着白云走马斯克𝕏一周年成绩单:估值降至200亿美元,广告收入下降60%,自己成发帖最多的人"回家的路上",见梧桐相吻 (并致谢Richie & 心雨烟尘 )科研女神,新晋国家杰青!北京大学医学部周菁研究员研究成果集锦!晚讯 |《自然》思维更像人类的AI诞生、《新英格兰医学杂志》首次同期刊发中国学者两项重要研究成果资马斯克xAI公布大模型详细进展,Grok只训练了2个月请子坛专家帮忙看一下这几个学校 BC, Turfs, Tulane, W&M, NEU
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。