Redian新闻
>
爆火后反转!「一夜干掉MLP」的KAN只是一个普通的MLP?

爆火后反转!「一夜干掉MLP」的KAN只是一个普通的MLP?

公众号新闻


©作者 | 蛋酱、张倩
来源 | 机器之心

KAN 作者:我想传达的信息不是「KAN 很棒」,而是「尝试批判性地思考当前的架构,并寻求从根本上不同的替代方案,这些方案可以完成有趣、有用的事情。」


多层感知器(MLP),也被称为全连接前馈神经网络,是当今深度学习模型的基础构建块。MLP 的重要性无论怎样强调都不为过,因为它们是机器学习中用于逼近非线性函数的默认方法。


但是最近,来自 MIT 等机构的研究者提出了一种非常有潜力的替代方法 ——KAN。该方法在准确性和可解释性方面表现优于 MLP。而且,它能以非常少的参数量胜过以更大参数量运行的 MLP。比如,作者表示,他们用 KAN 重新发现了结理论中的数学规律,以更小的网络和更高的自动化程度重现了 DeepMind 的结果。具体来说,DeepMind 的 MLP 有大约 300000 个参数,而 KAN 只有大约 200 个参数。


这些惊人的结果让 KAN 迅速走红,吸引了很多人对其展开研究。很快,有人提出了一些质疑。其中,一篇标题为《KAN is just MLP》的 Colab 文档成为了议论的焦点。





KAN只是一个普通的MLP?

上述文档的作者表示,你可以把 KAN 写成一个 MLP,只要在 ReLU 之前加一些重复和移位。

在一个简短的例子中,作者展示了如何将 KAN 网络改写为具有相同数量参数的、有轻微的非典型结构的普通 MLP。

需要记住的是,KAN 在边上有激活函数。它们使用 B - 样条。在展示的例子中,为了简单起见,作者将只使用 piece-wise 线性函数。这不会改变网络的建模能力。

下面是 piece-wise 线性函数的一个例子:


def f(x):
  if x < 0:
    return -2*x
  if x < 1:
    return -0.5*x
  return 2*x - 2.5
X = torch.linspace(-22100)
plt.plot(X, [f(x) for x in X])
plt.grid()




作者表示,我们可以使用多个 ReLU 和线性函数轻松重写这个函数。请注意,有时需要移动 ReLU 的输入。

plt.plot(X, -2*X + torch.relu(X)*1.5 + torch.relu(X-1)*2.5)
plt.grid()




真正的问题是如何将 KAN 层改写成典型的 MLP 层。假设有 n 个输入神经元,m 个输出神经元,piece-wise 函数有 k 个 piece。这需要 n∗m∗k 个参数(每条边有 k 个参数,而你有 n∗m 条边)。

现在考虑一个 KAN 边。为此,需要将输入复制 k 次,每个副本移动一个常数,然后通过 ReLU 和线性层(第一层除外)运行。从图形上看是这样的(C 是常数,W 是权重):



现在,可以对每一条边重复这一过程。但要注意一点,如果各处的 piece-wise 线性函数网格相同,我们就可以共享中间的 ReLU 输出,只需在其上混合权重即可。就像这样:





在 Pytorch 中,这可以翻译成以下内容:


k = 3 # Grid size
inp_size = 5
out_size = 7
batch_size = 10
X = torch.randn(batch_size, inp_size) # Our input
linear = nn.Linear(inp_size*k, out_size)  # Weights
repeated = X.unsqueeze(1).repeat(1,k,1)
shifts = torch.linspace(-11, k).reshape(1,k,1)
shifted = repeated + shifts
intermediate = torch.cat([shifted[:,:1,:], torch.relu(shifted[:,1:,:])], dim=1).flatten(1)
outputs = linear(intermediate)

现在我们的层看起来是这样的: 
  • Expand + shift + ReLU
  • Linear

一个接一个地考虑三个层:
  • Expand + shift + ReLU (第 1 层从这里开始)
  • Linear
  • Expand + shift + ReLU (第 2 层从这里开始)
  • Linear
  • Expand + shift + ReLU (第 3 层从这里开始)
  • Linear

忽略输入 expansion,我们可以重新排列:
  • Linear (第 1 层从这里开始)
  • Expand + shift + ReLU
  • Linear (第 2 层从这里开始)
  • Expand + shift + ReLU

如下的层基本上可以称为 MLP。你也可以把线性层做大,去掉 expand 和 shift,获得更好的建模能力(尽管需要付出更高的参数代价)。
  • Linear (第 2 层从这里开始)
  • Expand + shift + ReLU

通过这个例子,作者表明,KAN 就是一种 MLP。这一说法引发了大家对两类方法的重新思考。




对KAN思路、方法、结果的重新审视

其实,除了与 MLP 理不清的关系,KAN 还受到了其他许多方面的质疑。

总结下来,研究者们的讨论主要集中在如下几点。

第一,KAN 的主要贡献在于可解释性,而不在于扩展速度、准确性等部分。

论文作者曾经表示:

1. KAN 的扩展速度比 MLP 更快。KAN 比参数较少的 MLP 具有更好的准确性。

2. KAN 可以直观地可视化。KAN 提供了 MLP 无法提供的可解释性和交互性。我们可以使用 KAN 潜在地发现新的科学定律。

其中,网络的可解释性对于模型解决现实问题的重要性不言而喻:



但问题在于:「我认为他们的主张只是它学得更快并且具有可解释性,而不是其他东西。如果 KAN 的参数比等效的 NN 少得多,则前者是有意义的。我仍然感觉训练 KAN 非常不稳定。」



那么 KAN 究竟能不能做到参数比等效的 NN 少很多呢?

这种说法目前还存在疑问。在论文中,KAN 的作者表示,他们仅用 200 个参数的 KAN,就能复现 DeepMind 用 30 万参数的 MLP 发现数学定理研究。在看到该结果后,佐治亚理工副教授 Humphrey Shi 的两位学生重新审视了 DeepMind 的实验,发现只需 122 个参数,DeepMind 的 MLP 就能媲美 KAN 81.6% 的准确率。而且,他们没有对 DeepMind 代码进行任何重大修改。为了实现这个结果,他们只减小了网络大小,使用随机种子,并增加了训练时间。




对此,论文作者也给出了积极的回应:  


第二,KAN 和 MLP 从方法上没有本质不同。



「是的,这显然是一回事。他们在 KAN 中先做激活,然后再做线性组合,而在 MLP 中先做线性组合,然后再做激活。将其放大,基本上就是一回事。据我所知,使用 KAN 的主要原因是可解释性和符号回归。」


除了对方法的质疑之外,研究者还呼吁对这篇论文的评价回归理性:

「我认为人们需要停止将 KAN 论文视为深度学习基本单元的巨大转变,而只是将其视为一篇关于深度学习可解释性的好论文。在每条边上学习到的非线性函数的可解释性是这篇论文的主要贡献。」

第三,有研究者表示,KAN 的思路并不新奇。


「人们在 20 世纪 80 年代对此进行了研究。Hacker News 的讨论中提到了一篇意大利论文讨论过这个问题。所以这根本不是什么新鲜事。40 年过去了,这只是一些要么回来了,要么被拒绝的东西被重新审视的东西。」

但可以看到的是,KAN 论文的作者也没有掩盖这一问题。

「这些想法并不新鲜,但我不认为作者回避了这一点。他只是把所有东西都很好地打包起来,并对 toy 数据进行了一些很好的实验。但这也是一种贡献。」

与此同时,Ian Goodfellow、Yoshua Bengio 十多年前的论文 MaxOut(https://arxiv.org/pdf/1302.4389)也被提到,一些研究者认为二者「虽然略有不同,但想法有点相似」。


作者:最初研究目标确实是可解释性
热烈讨论的结果就是,作者之一 Sachin Vaidya 站出来了。


作为该论文的作者之一,我想说几句。KAN 受到的关注令人惊叹,而这种讨论正是将新技术推向极限、找出哪些可行或不可行所需要的。 


我想我应该分享一些关于动机的背景资料。我们实现 KAN 的主要想法源于我们正在寻找可解释的人工智能模型,这种模型可以「学习」物理学家发现自然规律的洞察力。因此,正如其他人所意识到的那样,我们完全专注于这一目标,因为传统的黑箱模型无法提供对科学基础发现至关重要的见解。然后,我们通过与物理学和数学相关的例子表明,KAN 在可解释性方面大大优于传统方法。我们当然希望,KAN 的实用性将远远超出我们最初的动机。


在 GitHub 主页中,论文作者之一刘子鸣也对这项研究受到的评价进行了回应:

最近我被问到的最常见的问题是 KAN 是否会成为下一代 LLM。我对此没有很清楚的判断。 


KAN 专为关心高精度和可解释性的应用程序而设计。我们确实关心 LLM 的可解释性,但可解释性对于 LLM 和科学来说可能意味着截然不同的事情。我们关心 LLM 的高精度吗?缩放定律似乎意味着如此,但可能精度不太高。此外,对于 LLM 和科学来说,准确性也可能意味着不同的事情。 


我欢迎人们批评 KAN,实践是检验真理的唯一标准。很多事情我们事先并不知道,直到它们经过真正的尝试并被证明是成功还是失败。尽管我愿意看到 KAN 的成功,但我同样对 KAN 的失败感到好奇。 


KAN 和 MLP 不能相互替代,它们在某些情况下各有优势,在某些情况下各有局限性。我会对包含两者的理论框架感兴趣,甚至可以提出新的替代方案(物理学家喜欢统一理论,抱歉)。


▲ KAN 论文一作刘子鸣。他是一名物理学家和机器学习研究员,目前是麻省理工学院和 IAIFI 的三年级博士生,导师是 Max Tegmark。他的研究兴趣主要集中在人工智能 AI 和物理的交叉领域。


参考链接:https://colab.research.google.com/drive/1v3AHz5J3gk-vu4biESubJdOsUheycJNz#scrollTo=WVDbcpBqAFop

https://github.com/KindXiaoming/pykan?tab=readme-ov-file#authors-note



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP李昌钰:我不是神探,只是一个普通科学家[反转]加拿大女孩网恋见光死后称被性骚扰20多次 报警抓人后反转了……一夜之间,家破人亡!这个普通男人的故事,看哭无数人...前方有坑,美女优先一个普普通通清洁工,居然是127家公司董事?!然而真相揭开,事情大了.....靠婚姻捞钱的女人和男人黄仁勋:我们只是普通人,做着普通的事医疗人拼了!第八届未来医疗生态展会首日爆火后的趋势解读Learn English with a Short StoryMLP一夜被干掉!MIT加州理工等革命性KAN破记录,发现数学定理碾压DeepMind我为什么认为美国不应该介入任何战争干掉MLP!KAN:全新神经网络架构爆火!网友:发论文"新坑"来了MLP一夜被干掉,全新神经网络架构KAN破纪录!MIT华人一作,轻松复现Nature封面AI数学研究《天路从我家门前过》&《领悟》黄仁勋:从底层少年到万亿教父,一个普通华人移民逆袭的故事除了他的儿女,还有谁会记得他这样的一个普通人呢?一夜爆火的香飘飘,等来了最大反转!国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座郑合惠子:一个普通女孩在娱乐圈会经历什么?OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了狂卖 10 万台的明星 AI 硬件,号称「干翻所有 app」,原来就是个 Android 应用?这烂梗爆火后,她又被网暴了「一炷香」的时间,静音、静思、静眠~李彦宏:百度搜索11%结果由AI生成,搜索最可能成AI时代「杀手级App」;雷军亲自驾驶18日直播公开亮相 ......涂黑脸拍照!美国两少年遭学校开除 家长提告后反转 获赔100万美元“半张脸演技”爆火后,内娱“人均半张脸”?「一生要有一条」的手串,果香浓郁,凝神静气,优雅不过时~爆款生成式AI硬件,销量突破10万台,拆完一看只是安卓app?首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源替代MLP的KAN,被开源项目扩展到卷积了大豆做的被子干掉空调?!2024凉感黑科技,酣睡一夜不闷汗!Transformer要变Kansformer?用了几十年的MLP迎来挑战者KAN加拿大的降息之路不平坦:三大指标的交织效应!影响每个普通人皇后区服饰店“大减价” 梅西百货Lululemon只要市场价一半 真实情况是...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。