Redian新闻
>
OpenAI用GPT-4解释了GPT-2三十万个神经元!用AI打败AI

OpenAI用GPT-4解释了GPT-2三十万个神经元!用AI打败AI

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】微信技术交流群

转载自:机器之心

这就是 GPT 的「抽象」,和人类的抽象不太一样。



虽然 ChatGPT 似乎让人类正在接近重新创造智慧,但迄今为止,我们从来就没有完全理解智能是什么,不论自然的还是人工的。


认识智慧的原理显然很有必要,如何理解大语言模型的智力?OpenAI 给出的解决方案是:问问 GPT-4 是怎么说的。


5 月 9 日,OpenAI 发布了最新研究,其使用 GPT-4 自动进行大语言模型中神经元行为的解释,获得了很多有趣的结果。



可解释性研究的一种简单方法是首先了解 AI 模型各个组件(神经元和注意力头)在做什么。传统的方法是需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程很难扩展,将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。


所以 OpenAI 提出了一种自动化方法 —— 使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分,并将其应用于另一种语言模型中的神经元 —— 此处他们选择了 GPT-2 为实验样本,并公开了这些 GPT-2 神经元解释和分数的数据集。



  • 论文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
  • GPT-2 神经元图:https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html
  • 代码与数据集:https://github.com/openai/automated-interpretability


这项技术让人们能够利用 GPT-4 来定义和自动测量 AI 模型的可解释性这个定量概念:它用来衡量语言模型使用自然语言压缩和重建神经元激活的能力。由于定量的特性,我们现在可以衡量理解神经网络计算目标的进展了。


OpenAI 表示,利用他们设立的基准,用 AI 解释 AI 的分数能达到接近于人类的水平。



OpenAI 联合创始人 Greg Brockman 也表示,我们迈出了使用 AI 进行自动化对齐研究的重要一步。


具体方法


使用 AI 解释 AI 的方法包括在每个神经元上运行三个步骤:


步骤一:用 GPT-4 生成解释



给定一个 GPT-2 神经元,通过向 GPT-4 展示相关文本序列和激活来生成对其行为的解释。


模型生成的解释:对电影、角色和娱乐的引用。


步骤二:使用 GPT-4 进行模拟


再次使用 GPT-4,模拟被解释的神经元会做什么。



步骤三:对比


根据模拟激活与真实激活的匹配程度对解释进行评分 —— 在这个例子上,GPT-4 的得分为 0.34。




主要发现


使用自己的评分方法,OpenAI 开始衡量他们的技术对网络不同部分的效果,并尝试针对目前解释不清楚的部分改进技术。例如,他们的技术对较大的模型效果不佳,可能是因为后面的层更难解释。



OpenAI 表示,虽然他们的绝大多数解释得分不高,但他们相信自己现在可以使用 ML 技术来进一步提高他们产生解释的能力。例如,他们发现以下方式有助于提高分数:


  • 迭代解释。他们可以通过让 GPT-4 想出可能的反例,然后根据其激活情况修改解释来提高分数。

  • 使用更大的模型来进行解释。随着解释模型(explainer model)能力的提升,平均得分也会上升。然而,即使是 GPT-4 给出的解释也比人类差,这表明还有改进的余地。

  • 改变被解释模型(explained model)的架构。用不同的激活函数训练模型提高了解释分数。


OpenAI 表示,他们正在将 GPT-4 编写的对 GPT-2 中的所有 307,200 个神经元的解释的数据集和可视化工具开源。同时,他们还提供了使用 OpenAI API 上公开可用的模型进行解释和评分的代码。他们希望研究界能够开发出新的技术来生成更高分的解释,同时开发出更好的工具来通过解释探索 GPT-2。


他们发现,有超过 1000 个神经元的解释得分至少为 0.8 分,这意味着根据 GPT-4,它们占据了神经元的大部分顶级激活行为。这些得到很好解释的神经元中的大多数都不是很有趣。然而,他们也发现了许多有趣但 GPT-4 并不理解的神经元。OpenAI 希望随着解释的改进,他们可能会迅速发现对模型计算的有趣的定性理解。

以下是一些不同层神经元被激活的例子,更高的层更抽象:






看起来,GPT 理解的概念和人类不太一样?


OpenAI 未来工作


目前,该方法还存在一些局限性,OpenAI 希望在未来的工作中可以解决这些问题:


  • 该方法专注于简短的自然语言解释,但神经元可能具有非常复杂的行为,因而用简洁地语言无法描述;

  • OpenAI 希望最终自动找到并解释整个神经回路实现复杂的行为,神经元和注意力头一起工作。目前的方法只是将神经元的行为解释为原始文本输入的函数,而没有说明其下游影响。例如,一个在周期(period)上激活的神经元可以指示下一个单词应该以大写字母开头,或者增加句子计数器;

  • OpenAI 解释了神经元的这种行为,却没有试图解释产生这种行为的机制。这意味着即使是得高分的解释在非分布(out-of-distribution)文本上也可能表现很差,因为它们只是描述了一种相关性;

  • 整个过程算力消耗极大。


最终,OpenAI 希望使用模型来形成、测试和迭代完全一般的假设,就像可解释性研究人员所做的那样。此外,OpenAI 还希望将其最大的模型解释为一种在部署前后检测对齐和安全问题的方法。然而,在这之前,还有很长的路要走。


参考内容:

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://news.ycombinator.com/item?id=35877402

https://www.reddit.com/r/MachineLearning/comments/13d4b3o/language_models_can_explain_neurons_in_language/

https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

点击进入—>【Transformer】微信技术交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Meta解释了人工智能如何影响Facebook和Instagram用户为省几百元,倒它3次飞机华裔数学家用GPT-4解数学难题;清华唐杰团队发布WebGLM;全国人大法工委回应“AI换脸”现象丨AIGC大事日报Agustín Hernández:中美洲建筑背景下的未来主义巨构三十岁再次对世界失望透顶|第三十一、三十二章Opera推出Opera One,将取代Opera浏览器ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行 |【经纬低调分享】Chatgpt的克星来了!澳洲留学生再用GPT写作业,98%概率会被抓!历史上的纪晓岚:日御数女且嗜肉如命,却能活到81岁,有何妙招?「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型女人被很多男人睡过,身上很容易出现这些痕迹窗外【生活】芬兰连续第六年被评为最幸福的国家,法国人解释了原因Hélène Binet:光的哲学家轰动学界的Nature和Cell论文,再被质疑有误,Ptbp1缺失不能诱导胶质细胞转化为神经元OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度Science子刊:新冠病毒会导致大脑细胞融合,进而损害神经元活动和大脑功能大脑里真有ResNet!全球首张「果蝇大脑连接组」面世:耗费十余年,重建三千神经元,超50万突触!颠覆现有理论!Cell子刊:原来神经元也吃糖,改善大脑糖代谢或可治疗老年痴呆,保持大脑健康!PNAS:成功将视网膜中休眠的米勒胶质细胞直接转化为视网膜神经元,有望开发出恢复视力的再生疗法本周好物都在这!添可洗地机3.0直降1000元,《十万个为什么》,美德玛祛疤啫喱,科西循环扇直降300元!张忠谋的这66条商业思考,解释了台积电为什么能成为全球“芯片之王”?13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组希腊圣托里尼岛(Santorini),沿路快照硬核观察 #997 OpenAI 用 GPT-4 来解释 GPT-2 的行为GPT-4解出难倒陶哲轩奥数题?语言IQ已达152,但空间推理巨差用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPTOpenAI已经偷偷发布了GPT 4.5?Nature颠覆性发现:大脑思考,促进肿瘤生长!胶质瘤通过劫持神经元影响认知和生存Google 内部文件泄漏:我们和 OpenAI 都没护城河,开源可以打败 ChatGPT用GPT打败GPT?AutoGPT将AI进程推向了新高度!|GGView打破百年误解!Nature最新研究:首次证实大脑整体形状对大脑功能的影响远大于复杂的神经元连接!谷歌、OpenAI 都白干,开源才是终极赢家!谷歌内部文件泄露:欲借开源打败 OpenAI
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。