Redian新闻
>
局部余弦相似度大,全局余弦相似度一定也大吗?

局部余弦相似度大,全局余弦相似度一定也大吗?

公众号新闻

©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 月之暗面
研究方向 | NLP、神经网络

在分析模型的参数时,有些情况下我们会将模型的所有参数当成一个整体的向量,有些情况下我们则会将不同的参数拆开来看。比如,一个 7B 大小的 LLAMA 模型所拥有的 70 亿参数量,有时候我们会将它当成“一个 70 亿维的向量”,有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”,最极端的情况下,我们也会将它看成是“七十亿个 1 维向量”
既然有不同的看待方式,那么当我们要算一些统计指标时,也就会有不同的计算方式,即局部计算和全局计算,这引出了局部计算的指标与全局计算的指标有何关联的问题。

本文我们关心两个向量的余弦相似度。如果两个大向量的维度被拆成了若干组,同一组对应的子向量余弦相似度都很大,那么两个大向量的余弦相似度是否一定就大呢?答案是否定的。特别地,这还跟著名的“辛普森悖论”有关。



问题背景
这个问题源于笔者对优化器的参数增量导致的损失函数变化量的分析。具体来说,假设优化器的更新规则是:
其中 是某个指定更新方向(的负方向)的向量。此时泰勒展开到一阶有
这里的 就是梯度 ,所以说,损失函数的变化量近似为

所以笔者想到了观察一下 的余弦相似度,即更新向量与梯度的方向一致性。

但问题来了,正如本文开头所说,模型的参数有不同的拆分方式,我们是将模型所有参数当成一个大向量来算更新向量与梯度的余弦(全局),还是每一层、每个参数单独来算(局部)?笔者两者都做了,并且对局部余弦做了截断(保证每个参数对应的更新向量与梯度的余弦大于某个正阈值),然后发现全局居然小于该阈值。初见之下感觉比较意外,于是简单分析了一番。



简单分析
现在问题抽象为:
假如两个向量的局部余弦相似度都不小于 ,那么这两个向量的全局余弦相似度一定不小于 吗?
答案大家已经知道了,是否定的。否定只需要举一个反例,假设 ,很明显 ,但是它们的子向量——也就是每个分量——都是正数,正数作为一维向量,它们的余弦相似度都是 1,所以我们就得到了一个局部余弦相似度全是 1、全局相似度小于 1 的反例。
更一般的分析,我们可以设 ,那么
如果 持大于零不动(不失一般性,可以设 ,那么可以得到 ,那就是说,不管 多大,总有一种情况可以让 无限接近于 0,即无法通过 来让 有下界。
至于上界,则可以证明:

证明其实也很简单,因为这个界很松。不失一般性假设 ,那么根据式(4)有

方括号部分,其实正好是二维向量 的余弦相似度,所以它必然不大于 1,于是有 ,这就证明了不等式(5)。

(再次强调,以上证明都是在 的假设下完成的,如果存在小于 0 的情况,则结论可能需要稍加改动。)



相关悖论
以上结果有什么更现实的对应吗?有,将它放到相关性分析中,就引申出了著名的“辛普森悖论(Simpson's paradox)”[1]
我们知道,有个衡量线性相关性的系数叫做“皮尔逊系数(Pearson Coefficient)”,定义为
再认真观察一下,如果我们记 ,那么上式不就是
所以,皮尔逊相关系数其实就是数据点减去均值之后的余弦相似度。既然有了余弦相似度,那么上一节的结果就能用过来了,直接结论就是即便两批数据都是明显的线性相关(),合起来之后也可能是线性无关的()。
而“辛普森悖论”说的更彻底一些,说的是每一批数据都是正相关,合起来不仅可能是线性无关,还可能是负相关,这是因为相关系数相比单纯的余弦相似度多了个 参数,可调的自由度更大。几何图像也非常直观,比如下图:
▲ “辛普森悖论”直观图像

上图中,蓝色数据完全在同一条直线上,而且斜率为正,所以相关系数为 1,红色数据也是如此,它们在自己的批次内都是“完全正线性相关”。但是将数据合起来后,如果非要用一条直线拟合,那么只能是虚线,而且斜率为负,即变成了负相关。这就构成了“辛普森悖论”的一个经典例子。



文章小结

本文简单讨论了高维向量的局部余弦相似度与全局余弦相似度之间的关系,并进一步讨论了与之相关的“辛普森悖论”。



参考文献

[1] https://en.wikipedia.org/wiki/Simpson%27s_paradox



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今年大家报名EPQ的热情更高了!EPQ对于牛剑申请作用大吗?科技业裁员潮一波接一波,SAP和EBay也大幅调整人事!【健康】您的血管年龄比真实年龄大吗?测试方法附上!南加局部明起阵雨降温云中船歌(古歌谣 The Skye Boat Song)附:以梦诗经体汉译中国的“蛋糕”还能做大吗?不是大模型全局微调不起,只是LoRA更有性价比,教程已经准备好了湖南一菜场顶棚局部垮塌,1人遇难13人受伤以色列一意孤行,执意进攻拉法,美国德国态度一致坚决反对财经早参丨2月5日降准,今日“局部”降息,央行行长发声;董明珠:格力十年贡献1400亿税收;4天票房520万,《花千骨》导演道歉近期,北京、云南、广东等地广电局部署了哪些重点工作?突发!BC发现首例僵尸症!危险大吗?黄仁勋扔出的算力核弹​是堆叠吗?马斯克开源的大模型Grok才是全球最大吗?福特新年优惠来了!力度大,车型多,快来看看吧!吃火鸡2月5日降准,明天“局部”降息!央行行长公布重磅利好,蚂蚁集团也收到一个大消息对比强烈,故国归来话感恩现在入职设计院的难度大吗?摩根大通:当下和2000年科网泡沫相似度比你想的高得多全网狂喷!韩国新地标抄袭广州塔,相似度99%?网友:北京鸟巢也被抄过,惯犯了直肠癌患者做放疗哪些副作用最常见?少做一两次放疗影响大吗?同一专业,在伦艺的不同学院中,差别大吗?韩国人开始吃绿色油炸牙签,食品安全局发文提醒:请不要吃牙签!全都疯了!Macy's、Nordstrom、Costco黑五力度一个比一个狠!京东值得买|吃喝用度一次备齐!一起提前囤年货啦~(文末有礼)我只想说:这种未成年恶魔必须严惩。它们的监护人也大概率不是好鸟。TPAMI 2024 | 针对节点的融合全局-局部信息的图谱滤波方法UCLA和UCSD狂发Waitlist,转正机会大吗?洛县局部天气警告:周中有雪雨强风美国名品,中国制造可怕!AI语音模仿儿子声音求救打钱,声音相似度太高,湾区夫妻被骗十几万刀!福特新年优惠!力度大,车型多,高达$4000回赠,速来!一年走遍七大洲,度一个环球蜜年要花多少钱?| 2023年终总结胃底癌贲门癌都是胃癌但预后一样吗?胃全切后对生活影响大吗?民主制度和路边下棋
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。