墨大联合新华社等发布基准框架，全面评估大模型的新闻写作能力和安全依从性

2024-03-24 13:03

引言

新闻写作与 AI 技术的结合日益紧密，然而，如何评估 AI 在新闻领域的应用效果以及其安全性成为了一个亟待解决的问题。

近日，研究人员推出了 NewsBench 这一创新性基准框架，专门用于评估大型语言模型在中国新闻写作熟练度（JWP）和安全性遵守（SA）方面的表现。这一突破性的研究不仅有助于填补新闻伦理与 AI 利用之间的空白，也为推动 AI 技术与新闻标准的协同进步提供了有力支撑。

论文标题：

NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications

论文地址：

https://arxiv.org/abs/2403.00862

代码地址：

https://github.com/IAAR-Shanghai/NewsBench

Benchmark介绍

NewsBench 是一个新型的基准评估框架，旨在评估大型语言模型（LLMs）在中国新闻写作能力（JWP）和安全遵从性（SA）方面的表现，填补了新闻道德与 AI 利用风险之间的差距。

该框架包括 1,267 个任务，涵盖了 5 种编辑应用程序、7 个方面（包括安全和新闻写作，具有 4 个详细方面），并跨越了 24 个新闻主题领域。这种全面性保证了 NewsBench 的评估范围涵盖了广泛的新闻领域和多样的任务类型，从而能够全面评估 LLMs 在不同情境下的表现。

为了确保评估结果的准确性和客观性，NewsBench 采用了两种基于 GPT-4 的自动评估协议，并通过人工评估进行验证。这种方法结合了自动化的计算和人工的主观判断，能够更全面地评估 LLMs 的性能，为用户提供更可信的结果。

通过对 11 种 LLMs 的综合分析，研究发现 GPT-4 和 ERNIE Bot 是表现最佳的模型。然而，在创意写作任务中，这些模型表现出相对缺陷，存在对新闻伦理的不足遵守。这一发现突显了在 AI 生成的新闻内容中加强伦理指导的重要性，有助于推动 AI 能力与新闻行业标准和安全考虑的一致性。

Benchmark框架设计

NewsBench的框架设计着眼于为大型语言模型（LLMs）在各种编辑应用和领域中的性能提供全面评估。除了考虑新闻写作熟练度（JWP）之外，还特别关注安全遵从性（SA），这反映了前期研究中对编辑完整性和安全性的重视。

框架采用了开放式生成任务和多项选择任务的结合形式，其中包括 JWP 和 SA 方面的任务，涵盖了新闻编辑的多个方面。这种设计不仅提供了多样化的评估场景，而且通过采用 GPT-4 等技术，能够提供对 LLMs 性能的量化评估，使得评估结果更加客观和可靠。

在任务类型的选择上，开放式生成任务和多项选择任务相辅相成。开放式生成任务采用了对抗性指令，旨在挑战 LLMs 并评估其在对抗性条件下遵循安全标准的能力。而多项选择任务则为自动化评估提供了有效的方法，能够更好地理解 LLMs 对特定写作和安全标准的理解和判断能力。

通过 NewsBench 的框架设计和数据构建，我们可以更加全面地了解 LLMs 在新闻写作和安全合规方面的表现，有助于识别其优势、劣势和风险，为进一步的研究和发展提供了重要参考。

benchmark的构建

基准数据集的构建涉及到一项由十名初级记者和实习生组成的团队，他们在一位资深记者的监督下进行了细致入微的工作。他们采用了迭代的方法进行任务的创建，确保每个任务的质量和准确性。

最初，团队接受了主管的指导，了解了任务的格式、类型、应用和各种方面。然后，每位贡献者被分配了具体的维度——类型、应用和目标方面——来进行任务的创建。利用这个框架，他们从主流中国媒体来源中选择了适合的新闻文章作为原材料。随后，他们根据所选文章和预定义的设置制定了指令、背景、答案和解释。

资深监督记者在审查草案任务方面发挥了关键作用。通常，在最终确定每个任务之前，他们会提供 1 到 3 轮的反馈。在此过程中，一些草案被丢弃，以确保最高的质量标准。经过彻底的审查和改进，总共构建了 1267 个任务，涵盖了广泛的应用、方面和领域。这些任务经过了仔细的构建和审查，以确保它们适用于全面的评估。

此外，数据集的统计和特征也被精心整理，以提供对任务在不同应用和方面分布的洞察。这种全面的方法确保了基准数据集的健壮性，适用于在各种编辑背景下评估大型语言模型（LLMs）的性能。通过这一细致的构建过程，基准数据集成为自然语言处理和新闻学领域的研究人员和从业者的宝贵资源。

prompt的构建

Prompt 的构建是由资深编辑和专业团队共同完成的。他们以详细的指导和目标为基础，为每个任务创建了具体的提示。这些提示被精心设计，以确保任务类型、应用场景和目标方面的准确性和清晰度。

在构建过程中，编辑团队通过对每个任务的内容进行深入分析和讨论，确定了最佳的指导方式，并考虑了潜在的挑战和对抗性情境。此外，他们还确保了任务提示的一致性和连贯性，以便 LLMs 能够准确理解并产生相应的输出。最终，这些经过精心构建的任务提示为评估 LLMs 的性能提供了有力的指导，为研究人员提供了丰富的数据资源。

对新闻写作能力的评估

作者将新闻写作的熟练程度通过四个细化的方面进行全面评估：包括语言流畅性、逻辑连贯性、风格一致性和指令完成度，每项任务都会从这四个维度进行评估。总的来说，该协议采用了一种全面的方法来评估新闻写作技巧，强调技术熟练度、遵循新闻原则以及满足编辑指令的能力。

『评分标准』（1）语言能力：1-3 分；（2）逻辑连贯性：1-3 分；（3）风格一致性：1-3 分；（4）指令完成度为 0-1 分。

对安全能力的评估

在安全能力评估方面，LLMs 的每个任务的输出仅针对一个相关的安全标准进行评估。作者一共提出 6 个安全方面——文明用语、偏见和歧视、个人隐私、社会危害、媒体道德和非法活动。每一个方面的评分都是 0-1 分，表示是否遵守了该方面的约束。

使用GPT-4对模型的能力进行评分

在本文中，作者使用了 GPT4 对模型的能力进行评分，为了验证基于 GPT-4 的自动评估的有效性及其与人类判断的一致性，作者选择了 5 个具有独特特征的 LLM，并邀请了三名人工标注员来评估这些模型生成的输出。

对于新闻写作，作者在 5 个写作应用中（标题、扩写、续写、润色、摘要）随机选择了 8 个任务，生成了 200 个输出，每个输出都在 4 个方面进行了评估，结果显示出较高的标注员间一致性，Krippendorff's alpha 值为 0.9188。

安全方面采用了类似的方法，5 个写作应用和 6 个安全维度的每种组合选择了 4 个任务，总共生成了 600 个输出，并达到了 Krippendorff's alpha 值为 0.8542。

对于这两种协议，通过多数投票整合了人工评估结果，并与 GPT-4 生成的分数进行了比较。GPT-4 与人工评价在新闻写作方面的相关性为 Kendall Tau=0.625，Spearman=0.719，Pearson=0.815，而在安全评价方面的相关性为 Kendall Tau=0.627，Spearman=0.627，Pearson=0.625。

通过三种相关评估方法的综合分析，一致显示 GPT-4 得分与人工评价在新闻写作熟练度和安全方面之间存在强正相关关系，证明了评估协议的有效性、有效性和可靠性。

实验结果

『对话大模型』 GPT-4-1106、GPT-3.5-turbo、ERNIEBot、Baichuan2-13B、Baichuan2-53B 、ChatGLM2-6B、ChatGLM3-6B、Aquila-34B、InternLM-20B、Qwen-14B、Xverse

『结果分析』GPT-4-1106 在与新闻写作熟练度相关的生成任务中表现出色，展示了中国新闻背景下的卓越语言理解和生成能力。

此外，ERNIE Bot 在安全评估分数中紧随其后，仅次于 GPT-4-1106，但在多项选择题中明显优于 GPT-4-1106，凸显了其在中文语言模型中的卓越熟练度。虽然 GPT-4-1106 在各种任务设置中表现出多功能性，但 ERNIE Bot 在生成任务中凭借其高准确性脱颖而出，特别是在制作新闻相关内容方面。

深入探讨模型参数和架构的影响表明，像 Aquila-34B 这样的大型模型并不一定能保证优越的性能，这表明参数的增加并不直接转化为更好的结果。

评价

该研究的目标是观察大语言模型在中国新闻写作的水平和安全性方面表现如何，以填补新闻伦理和大语言模型应用之间的空白，并推动 AI 技术和新闻标准的共同进步。同时，通过引入创新性的基准框架 NewsBench，研究人员全面评估了 10 种 LLMs 的表现，并提出了一些有趣的发现。

建立 NewsBench 涉及了多方面的工作，包括任务设计、制定指令以及构建数据集等。整个团队共同努力构建了一个全面且稳固的基准数据集，为评估 LLMs 的表现提供了扎实的基础。

通过对 LLMs 的新闻写作能力和安全性能力的评估，研究发现 GPT-4 和 ERNIE Bot 在新闻写作方面表现得很出色，展示了它们优秀的语言理解和生成能力。不过，在安全评估方面，ERNIE Bot 明显比 GPT-4 更胜一筹，尤其是在避免偏见和歧视方面。这些结果表明，虽然 LLMs 在新闻写作方面有所进步，但在确保内容安全性方面还有改进的空间。

另外，研究表明更大规模的模型并不一定能保证更好的性能，参数的增加不一定直接转化为更好的表现。相反，一些中等规模的模型可能在某些任务上表现得更好，这提示开发者需要更深入地研究模型设计的细节来优化性能。

这项研究对于推动 AI 技术和新闻行业标准的共同进步具有重要意义。通过评估 LLMs 的表现，我们可以更好地了解它们的优点、缺点和潜在风险，为未来的研究和发展提供重要的参考。期待该研究能够在未来进一步帮助开发者们挖掘 LLMs 在新闻写作和安全性方面的潜力，为构建更安全、可靠的新闻写作工具提供技术支持。

更多阅读