Redian新闻
>
一文总览由信息论中“熵”引申出来的各种距离/差异度量

一文总览由信息论中“熵”引申出来的各种距离/差异度量

公众号新闻

©作者 | 张维鸿

单位 | 中科院深先院

研究方向 | 计算生物学、迁移学习




信息熵

物理中热力学定律告诉我们世界是朝着熵增的,i.e.,混乱的方向演化的。越混乱的场景熵越大,熵是与不确定性正相关的。信息论中,熵反映了信息中包含的信息量的多少,越不确定的事件(概率 越小)包含的信息量越大:。于是,有

1.1 熵Entropy


假设事件 共有 种可能,发生 的概率为 ,那么事件 的熵定义为:



聪明的读者不难发现,熵就是事件 的信息量的期望,以概率 对事件的所有可能性加权的和。


1.2 条件熵Conditional Entropy


对于两个事件 ,条件熵是已知一个事件(如 )时另一个事件(如 )剩余的信息量:



由条件概率和联合概率的关系 ,于是:


1.3 联合熵Joint Entropy


联合概率 对应的联合事件的熵:



当事件, 独立时,由 知:



1.4 互信息Mutual Information


事件 重合部分的信息量, 的 intersection,定义为:



关系辩解


四者的关系见上图,即:

  • 条件熵+互信息=熵(CE + MI = E)


  • 熵+条件熵=联合熵(CE1 + CE2 + MI = EI + CE2 = JE)





差异度量(KL+)


信息熵可以衡量已知一个事件后另一个事件中未知的信息量,未知的信息量越少则两个事件重合度越高,从而,信息熵可以拓展到度量两个分布的距离/差异。


2.1 交叉熵Cross Entropy


回顾1.1中,熵是事件 的信息量的期望,即对事件的所有可能性加权和。假设事件 有真实分布 预测分布


交叉熵的“交叉”体现在用真实分布概率 加权预测分布的信息量



2.2 KL散度Kullback-Leibler Divergence(相对熵Relative Entropy)


相对熵的关键在于“相对”,“相对”体现在真实分布与预测分布的概率之比 以真实分布概率加权,(前向)KL 散度定义为:



对上式进行变换,可知



也即:KL散度 = 交叉熵 - 熵


显然,KL 散度不满足对称性,也不满足三角不等式,所以KL散度并不是距离。


✔ 值得注意的是:

在实际应用场景中,真实分布是确定的,故 H(p) 是常数,所以 KL 散度与交叉熵仅相差一个常数,从而,在分类任务中,评估预测分布与真实分布的差异可以用交叉熵损失度量。这就是有监督多分类任务一般用交叉熵损失而不用 KL 散度作为目标函数优化的原因。


  • 相对熵的一些理解:


可知,当预测分布 与真实分布 完全一致时 KL 散度为 0,预测越逼近真实分布则 KL 散度越小。

又由加权系数 可知 KL 散度着重在真实分布中概率大的地方让预测逼近,极端情况下 处预测分布与真实分布的差异大小不予考虑。如图例,着重让预测 在两峰逼近 ,而忽略谷点:



  • KL 散度 与互信息 的关系:



时,也即 为联合分布且 为边缘分布的乘积时,


2.3 JS散度Jensen-Shannon Divergence


正由于 KL 散度的非对称性使之不能作为距离,JS 散度作为 KL 散度的一种变体,解决了非对称问题,定义为:





其它


Wasserstein距离


差异/距离度量除了上面介绍的与信息熵有关的 notions 外,目前很火的是 p-Wasserstein 距离(由最优传输 Optimal Transport 得来),p-Wasserstein 距离的显著优点在于它可以比较两个完全没有 intersection 的分布,这是 KL 散度等不具备的。p-Wasserstein 距离已经在 WGAN 等工作中被广泛使用。


⌈最优传输OT和p-Wasserstein距离的简介⌋见笔者文章:

https://zhuanlan.zhihu.com/p/551134022


⌈最优传输的Python应用实现⌋见笔者文章:

https://zhuanlan.zhihu.com/p/573158960



参考文献

[1] KL散度衡量的是两个概率分布的距离吗?

https://www.zhihu.com/question/345907033/answer/2200649796

[2] 工具人66号:进阶详解KL散度

https://zhuanlan.zhihu.com/p/372835186

[3] KevinCK:交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)

https://zhuanlan.zhihu.com/p/74075915



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
庆结婚35周年行(3):环游麦基诺岛常见心血管药物最佳服用时间表,一文总结!大自然的几何学--分形,那些看似无规律的各种现象!健身房的各种杠铃杆,分别有多重?俄乌战争有望在10月份结束!深入分析普京过去八年犯的各种错误芝加哥最好吃的5家烧烤餐厅总览来了!别呆在家里了,快出来撸串吃烧烤呀~迷茫的时候看看:熬出来的刘玄德,忍出来的司马懿妹子照着别人墓碑上的各种食谱做菜….治愈了自己,居然火了!中国代表出席女王葬礼像男人留辫女人裹脚Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)2022年下半年,英国成交的各种几千万镑豪宅!都太壕了!在商业世界里火了那么久的“熵”,到底是什么?关于绘画兴趣班的各种问题,常爸今天请到了清华美院专家在线答疑,快进!钱理群:​人才是熏陶出来的,不是故意培养出来的拯救行动— 情深处终成眷属加快取消跨省人员流动的各种限制,这对恢复经济至关重要孩子也会有“内耗”,减少孩子的各种内耗,是让孩子高效学习的秘诀之一BLSTM-RNN、Deep Voice、Tacotron…你都掌握了吗?一文总结语音合成必备经典模型(一)【竹海葱茏】卷一、童年记忆14岁初中男孩录取清华丘成桐数学班:天才是生出来的,学霸是逼出来的,学渣是惯出来的出发了吗?收好这 10+ 款 App,能帮你解决十一出游的各种问题埃及游记:寻找古希腊文明的线索I2A、MBMF、MVE、DMVE…你都掌握了吗?一文总结强化学习必备经典模型(二)【感染日记】北京株转阴记:你以为痊愈的时候恰恰还没有,你囤的各种药物只能帮你......男生的各种超能力!ProGAN、StyleGAN、Diffusion GAN…你都掌握了吗?一文总结图像生成必备经典模型(一)执行力是干出来的,不是想出来的TGANv2、VideoGPT、DVG…你都掌握了吗?一文总结视频生成必备经典模型(二)好团队,是选出来的,打出来的,剩下来的一文总览2022世界VR产业大会相关亮点史上最全!一文总结2023年你能领到的所有联邦福利!加拿大大家拿!WGAN、CSGAN、ADC-GAN…你都掌握了吗?一文总结图像生成必备经典模型(二)程序员的各种皮肤CopyNet、SeqGAN、BERTSUM…你都掌握了吗?一文总结文本摘要必备经典模型(一)公安紧急提醒!疫情放开后的各种新套路…
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。