Redian新闻
>
一文总览由信息论中“熵”引申出来的各种距离/差异度量

一文总览由信息论中“熵”引申出来的各种距离/差异度量

公众号新闻

©作者 | 张维鸿

单位 | 中科院深先院

研究方向 | 计算生物学、迁移学习




信息熵

物理中热力学定律告诉我们世界是朝着熵增的,i.e.,混乱的方向演化的。越混乱的场景熵越大,熵是与不确定性正相关的。信息论中,熵反映了信息中包含的信息量的多少,越不确定的事件(概率 越小)包含的信息量越大:。于是,有

1.1 熵Entropy


假设事件 共有 种可能,发生 的概率为 ,那么事件 的熵定义为:



聪明的读者不难发现,熵就是事件 的信息量的期望,以概率 对事件的所有可能性加权的和。


1.2 条件熵Conditional Entropy


对于两个事件 ,条件熵是已知一个事件(如 )时另一个事件(如 )剩余的信息量:



由条件概率和联合概率的关系 ,于是:


1.3 联合熵Joint Entropy


联合概率 对应的联合事件的熵:



当事件, 独立时,由 知:



1.4 互信息Mutual Information


事件 重合部分的信息量, 的 intersection,定义为:



关系辩解


四者的关系见上图,即:

  • 条件熵+互信息=熵(CE + MI = E)


  • 熵+条件熵=联合熵(CE1 + CE2 + MI = EI + CE2 = JE)





差异度量(KL+)


信息熵可以衡量已知一个事件后另一个事件中未知的信息量,未知的信息量越少则两个事件重合度越高,从而,信息熵可以拓展到度量两个分布的距离/差异。


2.1 交叉熵Cross Entropy


回顾1.1中,熵是事件 的信息量的期望,即对事件的所有可能性加权和。假设事件 有真实分布 预测分布


交叉熵的“交叉”体现在用真实分布概率 加权预测分布的信息量



2.2 KL散度Kullback-Leibler Divergence(相对熵Relative Entropy)


相对熵的关键在于“相对”,“相对”体现在真实分布与预测分布的概率之比 以真实分布概率加权,(前向)KL 散度定义为:



对上式进行变换,可知



也即:KL散度 = 交叉熵 - 熵


显然,KL 散度不满足对称性,也不满足三角不等式,所以KL散度并不是距离。


✔ 值得注意的是:

在实际应用场景中,真实分布是确定的,故 H(p) 是常数,所以 KL 散度与交叉熵仅相差一个常数,从而,在分类任务中,评估预测分布与真实分布的差异可以用交叉熵损失度量。这就是有监督多分类任务一般用交叉熵损失而不用 KL 散度作为目标函数优化的原因。


  • 相对熵的一些理解:


可知,当预测分布 与真实分布 完全一致时 KL 散度为 0,预测越逼近真实分布则 KL 散度越小。

又由加权系数 可知 KL 散度着重在真实分布中概率大的地方让预测逼近,极端情况下 处预测分布与真实分布的差异大小不予考虑。如图例,着重让预测 在两峰逼近 ,而忽略谷点:



  • KL 散度 与互信息 的关系:



时,也即 为联合分布且 为边缘分布的乘积时,


2.3 JS散度Jensen-Shannon Divergence


正由于 KL 散度的非对称性使之不能作为距离,JS 散度作为 KL 散度的一种变体,解决了非对称问题,定义为:





其它


Wasserstein距离


差异/距离度量除了上面介绍的与信息熵有关的 notions 外,目前很火的是 p-Wasserstein 距离(由最优传输 Optimal Transport 得来),p-Wasserstein 距离的显著优点在于它可以比较两个完全没有 intersection 的分布,这是 KL 散度等不具备的。p-Wasserstein 距离已经在 WGAN 等工作中被广泛使用。


⌈最优传输OT和p-Wasserstein距离的简介⌋见笔者文章:

https://zhuanlan.zhihu.com/p/551134022


⌈最优传输的Python应用实现⌋见笔者文章:

https://zhuanlan.zhihu.com/p/573158960



参考文献

[1] KL散度衡量的是两个概率分布的距离吗?

https://www.zhihu.com/question/345907033/answer/2200649796

[2] 工具人66号:进阶详解KL散度

https://zhuanlan.zhihu.com/p/372835186

[3] KevinCK:交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)

https://zhuanlan.zhihu.com/p/74075915



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
芝加哥最好吃的5家烧烤餐厅总览来了!别呆在家里了,快出来撸串吃烧烤呀~【感染日记】北京株转阴记:你以为痊愈的时候恰恰还没有,你囤的各种药物只能帮你......2022年下半年,英国成交的各种几千万镑豪宅!都太壕了!I2A、MBMF、MVE、DMVE…你都掌握了吗?一文总结强化学习必备经典模型(二)迷茫的时候看看:熬出来的刘玄德,忍出来的司马懿拯救行动— 情深处终成眷属BLSTM-RNN、Deep Voice、Tacotron…你都掌握了吗?一文总结语音合成必备经典模型(一)俄乌战争有望在10月份结束!深入分析普京过去八年犯的各种错误CopyNet、SeqGAN、BERTSUM…你都掌握了吗?一文总结文本摘要必备经典模型(一)ProGAN、StyleGAN、Diffusion GAN…你都掌握了吗?一文总结图像生成必备经典模型(一)钱理群:​人才是熏陶出来的,不是故意培养出来的公安紧急提醒!疫情放开后的各种新套路…埃及游记:寻找古希腊文明的线索男生的各种超能力!关于绘画兴趣班的各种问题,常爸今天请到了清华美院专家在线答疑,快进!【竹海葱茏】卷一、童年记忆史上最全!一文总结2023年你能领到的所有联邦福利!加拿大大家拿!常见心血管药物最佳服用时间表,一文总结!程序员的各种皮肤在商业世界里火了那么久的“熵”,到底是什么?好团队,是选出来的,打出来的,剩下来的加快取消跨省人员流动的各种限制,这对恢复经济至关重要中国代表出席女王葬礼像男人留辫女人裹脚大自然的几何学--分形,那些看似无规律的各种现象!健身房的各种杠铃杆,分别有多重?妹子照着别人墓碑上的各种食谱做菜….治愈了自己,居然火了!TGANv2、VideoGPT、DVG…你都掌握了吗?一文总结视频生成必备经典模型(二)Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)出发了吗?收好这 10+ 款 App,能帮你解决十一出游的各种问题一文总览2022世界VR产业大会相关亮点孩子也会有“内耗”,减少孩子的各种内耗,是让孩子高效学习的秘诀之一执行力是干出来的,不是想出来的庆结婚35周年行(3):环游麦基诺岛14岁初中男孩录取清华丘成桐数学班:天才是生出来的,学霸是逼出来的,学渣是惯出来的WGAN、CSGAN、ADC-GAN…你都掌握了吗?一文总结图像生成必备经典模型(二)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。