重磅!OpenAI打开大模型思考黑盒,用AI解释AI的时代来了
这一技术的具体实现方式是,研究人员先给定GPT-2一个主题,并让其生成文本序列,再用GPT-4解释GPT-2生成的内容,再通过GPT-4模拟GPT-2的下一步操作,最后将GPT-4模拟生成的和GPT-2实际生成的内容进行对比评分。
论文地址:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
神经元查看器:
https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html
GitHub开源地址:
https://github.com/openai/automated-interpretability
如,当GPT-2生成“漫威漫画(Marvel comics vibes)”相关内容时,GPT-4生成的解释是其文本中有“对电影、角色和娱乐的引用”。给定主题是“明喻(similes)”时,GPT-4生成的解释是“比较和类比,常用‘like(类似)’这个词”。
▲测试案例:上图主题是“漫威漫画(Marvel comics vibes)”、下图主题是“明喻(similes)
第二步,使用GPT-4模拟神经元的行为。这一步骤想要回答的问题是,假设GPT-4的解释准确而全面地解释了神经元的行为,那么该神经元将如何针对特定序列中的每个标记激活。
第三步,将GPT-4模拟的内容与GPT-2真实生成的内容进行对比,根据其匹配程度进行评分。
以下几种方法可以帮助提高评分结果:
1、迭代解释(Iterating on explanations)。研发人员通过要求GPT-4提出可能的相反案例,然后根据它们的激活结果修改解释来提高分数。
2、使用更大的语言模型来给出解释(Using larger models to give explanations)。随着解释器模型能力的提高,平均分数也会上升。然而,即使是GPT-4这样参数规模的大型语言模型也给出了比人类更差的解释,这表明还有改进的余地。
3、更改已解释模型的架构(Changing the architecture of the explained model)。具有不同激活函数的训练模型提高了解释分数。
因此基于上述考虑,OpenAI开源了数据集,他们希望研究界能够开发新技术来生成更高分的解释,并开发更好的工具来解释GPT-2。
目前,OpenAI用于解释GPT-2的方法还有很多局限性:
研究人员希望GPT-4生成的解释是简短的自然语言,但神经元可能具有非常复杂的行为,无法被简洁清晰的叙述出来。例如,神经元可以代表许多不同的概念,或者可以代表人类不理解或无法用语言表达的单一概念。
他们希望最终自动找到并解释实现复杂行为的整个神经回路,使得神经元和注意力中枢协同工作。OpenAI当前的方法仅将神经元行为解释为原始文本输入的函数,而没有说明其接下来产生的影响。例如,当神经元激活的位置是一个句号,这可以指向后面的英文单词应该大写开头等。
这一评分系统解释了神经元的行为,但没有试图解释产生这种行为的机制。由于这一方法更多描述的是测试文本上的相关性,因此模拟过程中获得高分的解释,对于测试外的文本解释效果可能也很差。
最后,用GPT-4来解释GPT-2的整个过程是计算密集型。
不过,OpenAI的研究人员仍对这一方法的推广感到兴奋。最终,他们希望使用大型语言模型来生成、测试和迭代完全通用的预测。
微信扫码关注该文公众号作者