OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 新智元
工作原理
未来需要开发出能够更好地解释模型行为的算法和工具。
GPT-2 Small被看穿了
Mary and Johon went to the store, Johon gave a drink to....
OpenAI自动可解释性研究
还有局限
稀疏自动编码器设置
判断指标
- 手动检查:特征是否看起来可以解释? - 特征密度:实时特征数量和触发它们的token的百分比是一个非常有用的指导。 - 重建损失:衡量自动编码器重建MLP激活的程度。最终目标是解释MLP层的功能,因此MSE损耗应该很低。 - 玩具模型:使用一个已经非常了解的模型,可以清晰地评估自动编码器的性能。
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章