SafetyBench：通过单选题评估大型语言模型安全性

2023-09-25 16:09

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | THU基础模型

清华大学基础模型研究中心发布了SafetyBench，首个全面地通过单选题的方式来评估大型语言模型安全性的中英双语评测基准。SafetyBench共包含来自七个不同安全维度的11435个单选题，题目来源丰富，类型多样。来自清华大学CoAI课题组和清华大学KEG课题组的研究员合作构建了SafetyBench的评测数据，并搭建了实时的测评网站。

论文已在https://arxiv.org/abs/2309.07045发布，相关的数据和评测指南已在https://github.com/thu-coai/SafetyBench发布，结果提交入口和实时更新的排行榜已在https://llmbench.ai/safety发布。

引言

大型语言模型是近年来NLP领域的一个重要的研究方向。随着ChatGPT，GPT4等强大模型的问世，大家对于大型语言模型的关注和使用也越来越多。然而，尽管大型语言模型能够给人们提供很多帮助，它们的安全性问题也引起了人们的广泛关注。这些模型有可能输出含有侮辱性和偏见歧视的内容，可能输出非常不正确的价值观，也可能被用于恶意活动，如欺诈以及各种违法活动。因此对它们的安全性进行评估和改进显得尤为重要。

长期以来，清华大学计算机系CoAI小组一直关注大型语言模型的安全伦理问题。我们陆续提出了对话安全分类体系DiaSafety[1]，以及COLD[2]、CDialBias[3]、中文大模型安全评测平台[4]等安全研究基准和平台，并提出了反向生成[5]、训练数据抽取[6]、伦理道德对话[7]等安全攻击与改进方法，还撰写了大模型安全性相关的综述[8]，这些资源为大型语言模型的安全研究提供了重要支持。

为了进一步推动大型语言模型的安全部署，清华大学基础模型研究中心发布了SafetyBench，首个全面地通过单选题的方式来评估大型语言模型安全性的中英双语评测基准。其中，清华大学CoAI课题组以及清华大学KEG课题组的研究员合作进行了SafetyBench的开发。SafetyBench致力于为研究人员和开发者提供一个公开可靠的评测基准，帮助研究人员和开发者更好地理解和评估大型语言模型的安全性，为模型选择和优化提供参考，并帮助发展安全、负责任和道德的大模型，促进其与立法、社会规范和人类价值观保持一致。

SafetyBench评测网站首页

SafetyBench十问

Q1: SafetyBench相比其他安全评测基准，区别或者优势是什么？

SafetyBench与现有的一些安全评测基准的核心区别在于SafetyBench的测试题目均为单选题，从而可以快速、准确地对不同大语言模型进行安全性评估。现有的一些安全评测基准大多通过收集各种开放式的prompt，让大语言模型生成回复，再通过自动或人工的方式进行评估，这种模式存在的问题是现有自动评测方式准确性仍然有限，而人工评估又会带来较大开销。

此外，我们还总结了SafetyBench的四大优势：

♦ 测试简单高效。SafetyBench的题目均为单选题，便于快速进行自动评测。

♦ 测试数据多样。SafetyBench包含从多个来源收集的11,435道单选题，并覆盖了7个安全类别。

♦ 问题类型丰富。在SafetyBench中的测试问题涵盖了各种类型，包括对话情境、现实生活情景、安全比较、安全知识询问等等。

♦ 多种语言支持。SafetyBench同时提供了中英文数据，这可以促进对中文和英文大型语言模型的评估，并确保更广泛和更具包容性的评估。

Q2: SafetyBench评测的安全性包括哪些维度？

SafetyBench依托于一套系统的安全性分类体系，涵盖了七个维度的安全评测。以下对七个安全维度进行了说明：

♦ 攻击冒犯 (Offensiveness)：包含威胁、辱骂、蔑视、亵渎、嘲讽、不礼貌等具有攻击性、冒犯性的言论或者行为，大型语言模型需要识别并反对此类的内容和行为。

♦ 偏见歧视 (Unfairness and Bias)：这个维度主要是关于社会偏见，例如在性别、种族、宗教等方面的偏见与歧视，大型语言模型需要识别与避免包含偏见歧视的表达和行为。

♦ 身体健康 (Physical Health)：这个维度主要关注可能对人类身体健康造成影响的行为或者表达，大型语言模型需要了解在各种场景下保持身体健康的正确做法。

♦ 心理健康 (Mental Health)：和身体健康不同，这个维度主要关注和心理、情绪、心智等方面相关的健康问题。大型语言模型需要了解保持心理健康的正确方式，并避免对人类的心理健康造成损害。

♦ 违法活动 (Illegal Activities)：这个维度主要关注可能有较大危害的违法活动。大型语言模型需要能够区分违法和合法的行为，并对法律有基本的认知。

♦ 伦理道德 (Ethics and Morality)：除了明显违反法律的行为之外，还有一些行为是不符合伦理道德的。大型语言模型需要对伦理道德有较高层次的认知，并反对不符合伦理的行为和言论。

♦ 隐私财产 (Privacy and Property)：这个维度主要关注和隐私、财产、投资等相关的问题。大型语言模型需要对隐私财产相关的问题有一定的理解，并避免让用户的隐私泄露或者财产受到损失。

Q3: SafetyBench包含怎样的选择题，有没有直观的例子？

SafetyBench中的选择题类型较为丰富，如对于某句话是否存在某个安全风险的判断，多轮对话场景下的安全性判断，不同行为的安全性比较，现实场景下的合适行为选择，关于某个安全知识的询问等等，以下我们对7个安全维度都给出了2个例子，以便大家有更直观的认识。

Q4: SafetyBench的数据是如何收集的？

考虑到SafetyBench涉及的维度较广，且需要保证每个维度都有充足的测试数据，我们从多个来源收集了数据，包括：现有的公开数据集、考试题以及利用模型自动增广并人工检查的方式。在下图中我们展示了七个维度的数据来源分布情况：

7个安全维度的数据来源分布情况

我们对SafetyBench的数据进行了充分的人工检查，最大程度地减小评测的误差。

Q5: 如何使用SafetyBench进行评测？

我们在论文中主要考虑了zero-shot测试和few-shot测试两种设定。zero-shot测试即在输入的prompt中不给出例子，而是直接让模型回答所给的问题，few-shot测试即在输入的prompt给出一些回答问题的例子，让模型对于问题回答的格式等有更清楚的认识。

如果您需要使用SafetyBench，请参考本文开头的github仓库以及评测网站的指南，先下载测试数据，然后用您的模型生成结果并提取答案，最后在评测网站上进行提交，我们的评测网站将会自动返回评测结果。默认情况下评测结果仅您自己可见，但您也可以通过填写问卷的方式请求公开评测结果。

Q6: 我们目前评测了哪些模型？

我们目前评测了OpenAI的GPT系列模型和中国国内的一些基于API的大语言模型，还评测了众多的国内外的开源模型，总共评测了25个大语言模型，具体的列表如下：

Q7: 目前为止得到的结果和结论？

我们这里归纳了部分具有代表性的模型的评测结果，如下图所示：

在去敏感词和下采样的中文子集上的部分详细评测结果如下：

对于更完整的评测结果，欢迎查看我们的论文或者网站排行榜。

可以看到，GPT-4具有最好的安全性，比大部分模型的平均分数高出十个点以上，这表明现有模型的安全性还有较大的提升空间。此外，在某些类别例如身体健康(PH)上，其他模型与GPT-4的差距更为显著，这表明大部分模型需要重点关注身体健康上的安全风险。在某些类别例如偏见歧视(UB)上，模型的表现都相对较差，根据我们的观察和分析，其中一个原因是模型倾向于过度地将文本分类为具有偏见歧视，例如一个描述客观歧视现象的文本可能被误判为表现出了偏见歧视。

Q8: SafetyBench的评价结果和模型在实际对话中的安全性的联系？

SafetyBench旨在衡量大型语言模型理解安全相关问题的能力。虽然它不直接衡量大型语言模型在进行开放对话时的安全性，但我们认为理解安全相关问题的能力是构建安全的大型语言模型的基础和不可或缺的部分。例如，如果一个模型无法在某人受伤时识别出正确的应对措施，那么将很难在实时对话中对相关问题提供精确和有帮助的回复。相反，如果一个模型具有对安全相关问题的强大理解能力（例如，良好的道德观念，对隐式或对抗性文本的深刻理解），那么我们就更容易引导该模型在开放对话中生成安全回复。

Q9: SafetyBench为什么没有包含指令攻击等类别？

正如Q8中提到的，SafetyBench旨在衡量大型语言模型理解安全相关问题的能力，而指令攻击（例如目标劫持、角色扮演等攻击方式）的核心问题是模型在遵从用户指令和遵守安全限制之间遇到了冲突，这和SafetyBench所关注的问题有所不同。

Q10: 后续计划？

我们后续会持续维护SafetyBench的Github仓库以及评测网站，确保评测的实时性和可靠性，欢迎大家提交模型的预测结果。在必要的时候，我们可能还会考虑加入更多、更难的测试数据。

结语

我们希望通过SafetyBench，促进对大型语言模型进行快速、可靠的安全性评测，从而帮助提升大型语言模型的安全性。欢迎大家提交模型在SafetyBench上的测试结果，也欢迎大家向我们提各种建议反馈。

CoAI课题组链接：http://coai.cs.tsinghua.edu.cn

联系邮箱：[email protected] 张哲昕

参考文献

[1] Sun, Hao, et al. "On the safety of conversational models: Taxonomy, dataset, and benchmark." arXiv preprint arXiv:2110.08466 (2021)

[2] Deng, Jiawen, et al. "Cold: A benchmark for Chinese offensive language detection." arXiv preprint arXiv:2201.06025 (2022)

[3] Zhou, Jingyan, et al. "Towards Identifying Social Bias in Dialog Systems: Framework, Dataset, and Benchmark." Findings of the Association for Computational Linguistics: EMNLP 2022

[4] Sun, Hao, et al. "Safety Assessment of Chinese Large Language Models." arXiv preprint arXiv:2304.10436 (2023)

[5] Zhang, Zhexin, et al. "Constructing Highly Inductive Contexts for Dialogue Safety through Controllable Reverse Generation." arXiv preprint arXiv:2212.01810 (2022)

[6] Zhang, Zhexin, et al. "Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft Prompting and Calibrated Confidence Estimation." arXiv preprint arXiv:2307.04401 (2023)

[7] Sun, Hao, et al. " MoralDial: A Framework to Train and Evaluate Moral Dialogue Systems via Moral Discussions." arXiv preprint arXiv:2212.10720 (2023)

[8] Deng, Jiawen, et al. "Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey." arXiv preprint arXiv:2302.09270 (2023)

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章