Redian新闻
>
只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

公众号新闻
尚恩 发自 凹非寺
量子位 | 公众号 QbitAI

只要你用了ReLU,我们就是好朋就是“浅度学习”。

最近有研究证明,所有基于ReLU的深度神经网络都可以重写为功能相同的3层神经网络。

基于这个证明,伦敦国王学院的研究团队还提出一种为任意ReLU网络找到相应浅层网络的算法。

由此产生的浅层网络是透明的,可用于解释网络的行为。

只要通过算法,就能找到任意深度ReLU网络的对应浅层网络。

对此网友惊呼:我要读这篇论文,立刻马上!

任何深度ReLU网络都是浅层的

ReLU是深度学习领域最常用的一种激活函数,由Nair & Hintonw在2010为限制玻尔兹曼机(restricted Boltzmann machines)提出的。

由于常常在实践中有着比其他常用激励函数(例如逻辑函数)更好的效果,而被深度神经网络广泛用于图像识别等计算机视觉人工智能领域。

论文指出,每个深度ReLU网络都可以转换为一个功能相同且具有“三个隐藏层”的浅层网络。并提供了一个找到对应浅层网络权重的算法,提高神经网络的全局可解释性。

简单来说就是,通过划分输入空间,使用线性函数对每个分区进行建模,来实现深层网络浅化。


具体分为这三步。

首先,需要构建一个将线性模型和半空间编码的第一层,通过使用一个矩阵来表示半空间条件,其中每个行向量表示一个半空间的线性方程。

然后,构建第二层,该层根据输入的所属区域决定哪些边界是活跃的。

最后,构建第三层,通过将输入与每个线性模型相乘并使用指示函数来选择正确的模型。

基于此,每一个深度ReLU网络都可以被转换为一个功能上相同的三层网络,其权重值在扩展实数中。

当然要完成浅化,还需要一些咒(suan)语(fa)。

根据论文,使用算法时只需找到H、c、α、β这些参数,并知道每个区域所需的半空间就可以,主要分三步。

首先,识别可行的模式集,对于每个可行模式,计算全局线性规划的参数A(l)和d(l)。

然后,确定半空间条件,将这些矩阵堆叠起来,确定每个激活模式的半空间条件。最终得到矩阵H和向量c。

最后,计算局部线性模型,根据模型的权重和激活模式,使用显式公式,计算局部线性模型α和β。


简单理解,就是根据已训练好的网络,通过启发式搜索在可能的神经元激活空间中找到合适的权重值。

通过构建浅层白盒网络,能够快速计算出每个数据点的SHAP值,大大提高数据的可解释性。

实验表明,通过上面算法就可以找到给定深度ReLU网络对应的浅层网络的显式权重。

网友:实验很酷,但也有些问题

论文很新颖的提出一个算法,可以实现“深转浅”,不过该方法仍有一些缺点。

比如构建浅层网络使用了无限权重,尽管这些权重可以在Python中实现,但不能使用梯度下降进行微调。

当然,“找茬儿”这块,怎能少得了热心肠的网友。

根据论文可以发现,如果使用团队提供的算法,实验过程中计算时间其实是会随着神经元数量增加呈指数增长。

所以就有网友提出疑惑:算法运行时间与神经元数量成指数关系,12个神经元需要近10分钟,那计算一个普通大小的DNN所需时间岂不是长了去了……

网友指出:假设单层神经网络可以计算任何函数,那么对于任何神经网络来说,这不是都成立吗?

对于这个研究,也有网友犀利表示:这就是个「普遍逼近定理」,没什么大惊小怪的。

不过无论网友怎么说,这篇论文仍然有一些出彩点。

比如,通过这个方式得到的浅层网络是透明的,可以用来生成模型行为的解释。

此外还提供了用于复现实验的代码,供其他研究人员使用来探索和实验。

论文地址已经贴在下面,感兴趣可以去看看~

论文传送门:
https://arxiv.org/abs/2306.11827

参考链接:
[1]
https://twitter.com/mathemagic1an/status/1672430954152083456?s=46&t=iTysI4vQLQqCNJjSmBODPW

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
挑战英伟达H100霸权!IBM模拟人脑造神经网络芯片,效率提升14倍,破解AI模型耗电难题Nat. Commun. | 浙江大学郭国骥/韩晓平/王晶晶团队基于单细胞图谱和人工智能神经网络的基因组变异解码框架AI「心灵之眼」被看透!大改神经网络,模型生成背后逻辑首现液态神经网络无人机在未知领域航行时击败了其他人工智能系统5061 血壮山河之武汉会战 鏖战幕府山 30小居探楼 || 近NEU神仙高级公寓The Andi 本科福音 秋季预订中22023回国 去美食家蔡澜的餐厅喝早茶(图)CVPR 2023 | 三维场景生成:无需任何神经网络训练,从单个样例生成多样结果多层网关已成过去,网关多合一成潮流,网关改造正当时|Higress 1.0 正式发布深圳16岁男孩跳桥自杀,路过女孩热吻拯救:没人要你,我要你!16岁男孩跳桥自杀,路人女孩热吻拯救:没人要你,我要你!吴雷钧博士:A.I.神经网络赋能营销新玩法(I) | 深度观点Npj Comput. Mater.: DFT中的电子密度—等变图神经网络13层网络拿下83%精度,华为诺亚新型神经网络架构VanillaNet「简约」到极致《扫花游 - 听风》注意“浅肤色”!纽约线下交易,都是用“生命”在下赌!《艰难岁月》新书推荐讲演稿仅本周!任意电影院、任意场次票价仅$4!《奥本海默》《芭比》统统安排上!Bioinformatics | 来鲁华/邓明华合作:多层级的图神经网络促进蛋白质功能预测类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练《一首桃花》&《云水难记》年轻人:我需要你指点,但不需要你指指点点ICML 2023 | 英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出用别的模型权重训练神经网络,改神经元不影响输出:英伟达神奇研究香港理工大学林婉瑜博士实验室招收可信人工智能/图神经网络方向全奖博士生/博士后ICML 2023 | 神经网络大还是小?Transformer模型规模对训练目标的影响Sam Altman中国对话全文:要警惕AI风险,但看懂神经网络比了解人在想什么容易多了CVPR 2023 | 神经网络超体?新国立LV lab提出全新网络克隆技术​ICLR 2023 高分论文 | 基于子图草图的图神经网络用于链路预测GPT的背后,从命运多舛到颠覆世界,人工神经网络的跌宕80年马库斯总结16项「可信AI」要求,符号主义+神经网络携手打造AGI!40年前的Cyc成版本答案13层网络如何拿下83%精度?极简神经网络架构VanillaNet作者亲自解读ICML 2023 | 英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出!NEU神仙高级公寓The Andi 最高限免2个月房租无中介费比亚迪上半年归母净利润109.54亿元;亚运钉钉助力10万人大协同;苹果发布会即将召开,iPhone15新增“浅绿色”……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。