Redian新闻
>
​从重参数的角度看离散概率分布的构建

​从重参数的角度看离散概率分布的构建

科技


©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络


一般来说,神经网络的输出都是无约束的,也就是值域为 ,而为了得到有约束的输出,通常是采用加激活函数的方式。例如,如果我们想要输出一个概率分布来代表每个类别的概率,那么通常在最后加上 Softmax 作为激活函数。那么一个紧接着的疑问就是:除了 Softmax,还有什么别的操作能生成一个概率分布吗?

在《漫谈重参数:从正态分布到 Gumbel Softmax》[1] 中,我们介绍了 Softmax 的重参数操作,本文将这个过程反过来,即先定义重参数操作,然后去反推对应的概率分布,从而得到一个理解概率分布构建的新视角。



问题定义

假设模型的输出向量为 ,不失一般性,这里假设 两两不等。我们希望通过某个变换 转换为 元概率分布 ,并保持一定的性质。比如,最基本的要求是:

当然,这些要求都很平凡,只要 的单调函数(对于 Softmax 有 ),那么变换

都可以满足上述要求。接下来我们增加一个不那么平凡的条件:

其中 代表全 1 向量, 则是任意常数。也就是说, 的每个分量都加上同一常数后,变换的结果保持不变。容易检验 Softmax 是满足这个条件的,然而除了 Softmax 外,我们似乎很难想到别的变换了。



噪声扰动
非常有意思的是,我们可以借助重参数(Reparameterization)的逆过程来构造这样的变换!假设 是从分布 独立重复采样 次得到的向量,由于 是随机的,那么 通常也是随机的,那么我们可以通过

来定义变换 。由于 是独立同分布的,且整个定义只跟 有关,也就是只涉及到每个分量的相对大小,因此所定义的变换必然是满足前述4个条件的。

我们也可以通过直接算出 的形式来判断它满足的性质。具体来说, 意味着

也就是 ,显然 越大该式成立的可能性越大,也即 越大对应的 越大,这便是条件 3。具体来说,固定 的情况下,满足该条件的概率是


这里 的累积分布函数(Cumulative Distribution Function)。由于各个 都是独立同分布的,因此我们可以将概率直接连乘起来:

这是固定 的情况下, 的概率。最后我们只需要对 求平均,就可以得到

的表达式可以看到它只依赖于相对值 ,因此显然它满足定义中的条件 4。



温故知新

对照《漫谈重参数:从正态分布到 Gumbel Softmax》[1] 中关于 Gumbel Max [2] 的介绍,我们可以发现上述推导跟重参数正好相反,它是先定义了重参数的方法,然后在反向推导出对应的概率分布。

现在我们可以来重新检验一下之前的结果,即当噪声分布取 Gumbel 分布时,式(8)是否能得到常规的 Softmax 操作。Gumbel 噪声是 通过 变换而来,由于 的分布正好是 ,所以解出来 正好就是 Gumbel 分布的累积分布函数,即 ,而 就是 的导数,即

将上述结果代入式(8)得

这正好是 Softmax。于是我们再次验证了 Gumbel Max 与 Softmax 的对应关系。



数值计算
能像 Gumbel 分布那样解出诸如 Softmax 的解析解是极其稀罕的,至少笔者目前还找不到第二例。因此,大多数情况下,我们只能用数值计算方法近似估算(8)。由于 ,所以我们可以直接凑微分得:

,那么

其中 是   的逆函数,在概率中也叫分位函数(Quantile Function、Percent Point Function 等)。

从上式可以看到,只要我们知道 的解析式,就可以对 进行近似计算。注意我们不需要知道 的解析式,因为采样点 的结果我们可以用其他数值方法提前计算好。

以标准正态分布为例,,而主流的深度学习框架基本上都自带了 函数,所以 的计算是没有问题的;至于 我们可以通过 scipy.stats.norm.ppf 来事先计算好。所以当 采样自标准正态分布时, 的计算在主流深度学习框架中都是没问题的。



文章小结
本文从重参数角度对 Softmax 进行推广,得到了一类具备相似性质的概率归一化方法。


参考文献

[1] https://kexue.fm/archives/6705

[2] https://en.wikipedia.org/wiki/Gumbel_distribution




更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一日一诗:“风吹烟雨里半壁的孤寒/ 风吹天地间无数的未来”||言一文: 老子与道德经(读诗版)“00后生三胎”综艺引爆韩国网络,但劝你别冲着大尺度看微软发布的新鼠标,值得所有外设厂商「抄袭」|硬哲学庭审证词:希拉里亲自把对川普通俄门的构陷骗局给主流媒体传播!宋瑞霖:站在全球角度看中国药物创新晨跑艳遇----早起的鸟儿有虫吃武汉“俄展”|哈恰图良的《斯巴达克斯》演绎古罗马最耀眼的角斗士懒人神器!自动帮你倒垃圾、洗拖布的扫拖一体机器人怎么样?追觅S10 Pro体验必须警惕的角色——世卫组织晓霜:从​一桩遗嘱大案,看文字的不同意义正态分布的前世今生 (下)解密!第一个开源架构工作台的构建过程疼死了有多疼?发明疼痛指数的这位美国人,推动了中国癌痛治疗晨读|刚公布的上海4月经济数据严峻,这几件事影响全国国产剧最难拍的角色,两个字隐秘的角落:ToB 销售、乱象和 SaaS 堪忧的未来从医学专业角度看:唐山打人事件不应以伤情结果定罪量刑千亿参数的广告模型,是怎样炼成的?平局 | 美国会冻结中国海外金融账户吗?会突然对华发起金融核弹吗?大概率还是小概率??出疫情控制记(安省)普利策奖获得者裘帕·拉希莉:用旁观者的角度探索生活复星唐斌:从投资角度看“专精特新”的机会与挑战如何培养面向未来的孩子?你的角色非常重要!| 王煜全在美国57. 警察寻找我十面埋伏,请欣赏精彩民乐表演俄乌战争谁胜谁负?​从这场战争的进程研判未来中国军事变革的路径和方向!777人感染后,北京发现核酸检测隐藏大问题,必须从重从严处理!接下来会怎样X1 信用卡:可以everything 3x点数的信用卡正态分布的前世今生(上)微软 1995 年首次发布的 3D Movie Maker 现已开源 | Linux 中国麻醉医生角度看药驾应依法从重判决唐山打人案犯,并确保判决经得起时间检验她毫无经验,却把最难的角色演成了最佳女主角此刻出门还会遇到发春的角落吗?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。