Redian新闻
>
一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构设计方法

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构设计方法

公众号新闻


©作者 | 机器之心编辑部

来源 | 机器之心

以神经网络为基础的深度学习技术已经在诸多应用领域取得了有效成果。在实践中,网络架构可以显著影响学习效率,一个好的神经网络架构能够融入问题的先验知识,稳定网络训练,提高计算效率。

目前,经典的网络架构设计方法包括人工设计、神经网络架构搜索(NAS)[1]、以及基于优化的网络设计方法 [2]。人工设计的网络架构如 ResNet 等;神经网络架构搜索则通过搜索或强化学习的方式在搜索空间中寻找最佳网络结构;基于优化的设计方法中的一种主流范式是算法展开(algorithm unrolling),该方法通常在有显式目标函数的情况下,从优化算法的角度设计网络结构。

然而,现有经典神经网络架构设计大多忽略了网络的万有逼近性质 —— 这是神经网络具备强大性能的关键因素之一。因此,这些设计方法在一定程度上失去了网络的先验性能保障。尽管两层神经网络在宽度趋于无穷的时候就已具有万有逼近性质 [3],在实际中,我们通常只能考虑有限宽的网络结构,而这方面的表示分析的结果十分有限。

实际上,无论是启发性的人工设计,还是黑箱性质的神经网络架构搜索,都很难在网络设计中考虑万有逼近性质。基于优化的神经网络设计虽然相对更具解释性,但其通常需要一个显式的目标函数,这使得设计的网络结构种类有限,限制了其应用范围。如何系统性地设计具有万有逼近性质的神经网络架构,仍是一个重要的问题。

为了解决这个问题,北京大学林宙辰教授团队提出了一种易于操作的基于优化算法设计具有万有逼近性质保障的神经网络架构的方法,其通过将基于梯度的一阶优化算法的梯度项映射为具有一定性质的神经网络模块,再根据实际应用问题对模块结构进行调整,就可以系统性地设计具有万有逼近性质的神经网络架构,并且可以与现有大多数基于模块的网络设计的方法无缝结合。

论文还通过分析神经网络微分方程(NODE)的逼近性质首次证明了具有一般跨层连接的神经网络的万有逼近性质,并利用提出的框架设计了 ConvNext、ViT 的变种网络,取得了超越 baseline 的结果。论文被人工智能顶刊 TPAMI 接收。


论文题目:

Designing Universally-Approximating Deep Neural Networks: A First-Order Optimization Approach

论文地址:

https://ieeexplore.ieee.org/document/10477580


方法简介
传统的基于优化的神经网络设计方法通常从一个具有显式表示的目标函数出发,采用特定的优化算法进行求解,再将优化迭代格式映射为神经网络架构,例如著名的 LISTA-NN 就是利用 LISTA 算法求解 LASSO 问题所得 [4],这种方法受限于目标函数的显式表达式,可设计得到的网络结构有限。

一些研究者尝试通过自定义目标函数,再利用算法展开等方法设计网络结构,但他们也需要如权重绑定等与实际情况可能不符的假设。

论文提出的易于操作的网络架构设计方法从一阶优化算法的更新格式出发,将梯度或邻近点算法写成如下的更新格式:


其中表示第 k 步更新时的(步长)系数,再将梯度项替换为神经网络中的可学习模块 T,即可得到 L 层神经网络的骨架:


整体方法框架见图 1。

▲ 图1. 网络设计图示


论文提出的方法可以启发设计 ResNet、DenseNet 等经典网络,并且解决了传统基于优化设计网络架构的方法局限于特定目标函数的问题。

模块选取与架构细节

该方法所设计的网络模块 T 只要求有包含两层网络结构,即,作为其子结构,即可保证所设计的网络具有万有逼近性质,其中所表达的层的宽度是有限的(即不随逼近精度的提高而增长),整个网络的万有逼近性质不是靠加宽的层来获得的。

模块 T 可以是 ResNet 中广泛运用的 pre-activation 块,也可以是 Transformer 中的注意力 + 前馈层的结构。T 中的激活函数可以是 ReLU、GeLU、Sigmoid 等常用激活函数。还可以根据具体任务在中添加对应的归一化层。

另外,时,设计的网络是隐式网络 [5],可以用不动点迭代的方法逼近隐格式,或采用隐式微分(implicit differentiation)的方法求解梯度进行更新。

通过等价表示设计更多网络

该方法不要求同一种算法只能对应一种结构,相反,该方法可以利用优化问题的等价表示设计更多的网络架构,体现其灵活性。例如,线性化交替方向乘子法通常用于求解约束优化问题:通过令即可得到一种可启发网络的更新迭代格式:


其启发的网络结构可见图 2。

▲ 图2. 线性化交替方向乘子法启发的网络结构


启发的网络具有万有逼近性质

对该方法设计的网络架构,可以证明,在模块满足此前条件以及优化算法(在一般情况下)稳定、收敛的条件下,任意一阶优化算法启发的神经网络在高维连续函数空间具有万有逼近性质,并给出了逼近速度。

论文首次在有限宽度设定下证明了具有一般跨层连接的神经网络的万有逼近性质(此前研究基本集中在 FCNN 和 ResNet,见表 1),论文主定理可简略叙述如下:

主定理(简略版):设 A 是一个梯度型一阶优化算法。若算法 A 具有公式 (1) 中的更新格式,且满足收敛性条件(优化算法的常用步长选取均满足收敛性条件。若在启发网络中均为可学习的,则可以不需要该条件),则由算法启发的神经网络:


在连续(向量值)函数空间以及范数下具有万有逼近性质,其中可学习模块 T 只要有包含两层形如的结构(σ 可以是常用的激活函数)作为其子结构都可以。

常用的 T 的结构如:

1)卷积网络中,pre-activation 块:BN-ReLU-Conv-BN-ReLU-Conv (z),

2)Transformer 中:Attn (z) + MLP (z+Attn (z)).

主定理的证明利用了 NODE 的万有逼近性质以及线性多步方法的收敛性质,核心是证明优化算法启发设计的网络结构恰对应一种收敛的线性多步方法对连续的 NODE 的离散化,从而启发的网络 “继承” 了 NODE 的逼近能力。在证明中,论文还给出了 NODE 逼近 d 维空间连续函数的逼近速度,解决了此前论文 [6] 的一个遗留问题。

▲ 表1. 此前万有逼近性质的研究基本集中在 FCNN 和 ResNet


实验结果
论文利用所提出的网络架构设计框架设计了 8 种显式网络和 3 种隐式网络(称为 OptDNN),网络信息见表 2,并在嵌套环分离、函数逼近和图像分类等问题上进行了实验。论文还以 ResNet, DenseNet, ConvNext 以及 ViT 为 baseline,利用所提出的方法设计了改进的 OptDNN,并在图像分类的问题上进行实验,考虑准确率和 FLOPs 两个指标。

▲ 表2. 所设计网络的有关信息


首先,OptDNN 在嵌套环分离和函数逼近两个问题上进行实验,以验证其万有逼近性质。在函数逼近问题中,分别考虑了逼近 parity function 和 Talgarsky function,前者可表示为二分类问题,后者则是回归问题,这两个问题都是浅层网络难以逼近的问题。

OptDNN 在嵌套环分离的实验结果如图 3 所示,在函数逼近的实验结果如图 3 所示,OptDNN 不仅取得了很好的分离 / 逼近结果,而且比作为 baseline 的 ResNet 取得了更大的分类间隔和更小的回归误差,足以验证 OptDNN 的万有逼近性质。

▲ 图3. OptNN 逼近 parity function


▲ 图4. OptNN 逼近 Talgarsky function


然后,OptDNN 分别在宽 - 浅和窄 - 深两种设定下在 CIFAR 数据集上进行了图像分类任务的实验,结果见表 3 与 4。实验均在较强的数据增强设定下进行,可以看出,一些 OptDNN 在相同甚至更小的 FLOPs 开销下取得了比 ResNet 更小的错误率。论文还在 ResNet 和 DenseNet 设定下进行了实验,也取得了类似的实验结果。

▲ 表3. OptDNN 在宽 - 浅设定下的实验结果


▲ 表4. OptDNN 在窄 - 深设定下的实验结果


论文进一步选取了此前表现较好的 OptDNN-APG2 网络,进一步在 ConvNext 和 ViT 的设定下在 ImageNet 数据集上进行了实验,OptDNN-APG2 的网络结构见图 5,实验结果表 5、6。OptDNN-APG2 取得了超过等宽 ConvNext、ViT 的准确率,进一步验证了该架构设计方法的可靠性。

▲ 图5. OptDNN-APG2 的网络结构


▲ 表5. OptDNN-APG2 在 ImageNet 上的性能比较


▲ 表6. OptDNN-APG2 与等宽(isotropic)的 ConvNeXt 和 ViT 的性能比较

最后,论文依照 Proximal Gradient Descent 和 FISTA 等算法设计了 3 个隐式网络,并在 CIFAR 数据集上和显式的 ResNet 以及一些常用的隐式网络进行了比较,实验结果见表 7。三个隐式网络均取得了与先进隐式网络相当的实验结果,也说明了方法的灵活性。

▲ 表7. 隐式网络的性能比较


总结
神经网络架构设计是深度学习中的核心问题之一。论文提出了一个利用一阶优化算法设计具有万有逼近性质保障的神经网络架构的统一框架,拓展了基于优化设计网络架构范式的方法。该方法可以与现有大部分聚焦网络模块的架构设计方法相结合,可以在几乎不增加计算量的情况下设计出高效的模型。

在理论方面,论文证明了收敛的优化算法诱导的网路架构在温和条件下即具有万有逼近性质,并弥合了 NODE 和具有一般跨层连接网络的表示能力。该方法还有望与 NAS、 SNN 架构设计等领域结合,以设计更高效的网络架构。

参考文献

[1] B. Baker, O. Gupta, N. Naik, and R. Raskar, “Designing neural network architectures using reinforcement learning,” in International Conference on Learning Representations, 2017.
[2] V. Monga, Y. Li, and Y. C. Eldar, “Algorithm unrolling: Interpretable, efficient deep learning for signal and image processing,” IEEE Signal Processing Magazine, 2021.
[3] K. Hornik, M. Stinchcombe, and H. White, “Multilayer feedforward networks are universal approximators,” Neural Networks, 1989.
[4] K. Gregor and Y. LeCun, “Learning fast approximations of sparse coding,” in International Conference on Machine Learning, 2010.
[5] S. Bai, J. Z. Kolter, and V. Koltun, “Deep equilibrium models,” in Advances in Neural Information Processing Systems, 2019.
[6] Q. Li, T. Lin, and Z. Shen, “Deep learning via dynamical systems: An approximation perspective,” Journal of the European Mathematical Society, 2022.


更多阅读





#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
WWW 2024 | 港理工等联合提出线性时间图神经网络,适用于大规模推荐系统CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT神经领域的“诺奖”——欧洲脑奖刚揭晓:三位计算和理论神经学者获千万奖金Tomcat 调优总结(Tomcat自身优化、Linux内核优化、JVM优化)8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare订单中心架构设计与实践CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNetAI在用 | 一个超级提示,用Claude 3生成神经网络架构动画品茶小軒, 品的是心動瞬間/小说的本质是时间“财经博主”,懂个屁的斯大林简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法野地梅香旅游|2024火人节剧透! 神庙设计方案出炉,第一次由女设计师操刀~基于微环境感知图神经网络构建指导蛋白质定向进化的通用人工智能斯坦福团队提出新型抗衰老疗法,单次注射可恢复小鼠免疫系统「年轻状态」,效果持久明显《尘封档案》拾遗之071:冒牌“英雄”落网记给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力实践总结|前端架构设计的一点考究自动驾驶再起波澜,华为将引领下一阶段?加速十倍,前向传播立大功!基于神经网络的偏微分方程求解器新突破巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构长篇小说《谷雨立夏间》64 直觉的救赎【首发】宇测生物完成数千万元Pre-B轮融资,持续以神经标志物为核心打造国产新一代免疫检测技术高端品牌,引领神经科学诊断市场具有高阶交互的网络化动态系统:稳定性与复杂性 | NSR二岩藻糖基乳糖滴度超33g/L,中国农大团队提出高效从头合成HMO新策略,无副产物3-FL产生比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA“蔡元培”进北大研究生复试,北大:确实巧合,一切会按流程办事爱因斯坦把全人类带进阴沟,而特斯拉才能让人类重新走上光明大道纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023北大图灵班00后学子夺得五金!北大荣获国际大学生程序设计竞赛全球总冠军清华大学团队NSR综述:混合神经网络(ANN+SNN→HNN)推动类脑计算顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法AI数据中心网络架构需求:400/800G光模块梅奥诊所:非肺部来源的神经内分泌瘤在神经科的临床特征和自身抗体谱
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。