Redian新闻
>
墨大联合新华社等发布基准框架,全面评估大模型的新闻写作能力和安全依从性

墨大联合新华社等发布基准框架,全面评估大模型的新闻写作能力和安全依从性

科学


引言

新闻写作与 AI 技术的结合日益紧密,然而,如何评估 AI 在新闻领域的应用效果以及其安全性成为了一个亟待解决的问题。


近日,研究人员推出了 NewsBench 这一创新性基准框架,专门用于评估大型语言模型在中国新闻写作熟练度(JWP)和安全性遵守(SA)方面的表现。这一突破性的研究不仅有助于填补新闻伦理与 AI 利用之间的空白,也为推动 AI 技术与新闻标准的协同进步提供了有力支撑。

论文标题:

NewsBench: Systematic Evaluation of LLMs for Writing Proficiency and Safety Adherence in Chinese Journalistic Editorial Applications

论文地址:

https://arxiv.org/abs/2403.00862

代码地址:

https://github.com/IAAR-Shanghai/NewsBench



Benchmark介绍

NewsBench 是一个新型的基准评估框架,旨在评估大型语言模型(LLMs)在中国新闻写作能力(JWP)和安全遵从性(SA)方面的表现,填补了新闻道德与 AI 利用风险之间的差距。


该框架包括 1,267 个任务,涵盖了 5 种编辑应用程序、7 个方面(包括安全和新闻写作,具有 4 个详细方面),并跨越了 24 个新闻主题领域。这种全面性保证了 NewsBench 的评估范围涵盖了广泛的新闻领域和多样的任务类型,从而能够全面评估 LLMs 在不同情境下的表现。

为了确保评估结果的准确性和客观性,NewsBench 采用了两种基于 GPT-4 的自动评估协议,并通过人工评估进行验证。这种方法结合了自动化的计算和人工的主观判断,能够更全面地评估 LLMs 的性能,为用户提供更可信的结果。


通过对 11 种 LLMs 的综合分析,研究发现 GPT-4 和 ERNIE Bot 是表现最佳的模型。然而,在创意写作任务中,这些模型表现出相对缺陷,存在对新闻伦理的不足遵守。这一发现突显了在 AI 生成的新闻内容中加强伦理指导的重要性,有助于推动 AI 能力与新闻行业标准和安全考虑的一致性。



Benchmark框架设计

NewsBench的 框架设计着眼于为大型语言模型(LLMs)在各种编辑应用和领域中的性能提供全面评估。除了考虑新闻写作熟练度(JWP)之外,还特别关注安全遵从性(SA),这反映了前期研究中对编辑完整性和安全性的重视。


框架采用了开放式生成任务和多项选择任务的结合形式,其中包括 JWP 和 SA 方面的任务,涵盖了新闻编辑的多个方面。这种设计不仅提供了多样化的评估场景,而且通过采用 GPT-4 等技术,能够提供对 LLMs 性能的量化评估,使得评估结果更加客观和可靠。


在任务类型的选择上,开放式生成任务和多项选择任务相辅相成。开放式生成任务采用了对抗性指令,旨在挑战 LLMs 并评估其在对抗性条件下遵循安全标准的能力。而多项选择任务则为自动化评估提供了有效的方法,能够更好地理解 LLMs 对特定写作和安全标准的理解和判断能力。


通过 NewsBench 的框架设计和数据构建,我们可以更加全面地了解 LLMs 在新闻写作和安全合规方面的表现,有助于识别其优势、劣势和风险,为进一步的研究和发展提供了重要参考。



benchmark的构建

基准数据集的构建涉及到一项由十名初级记者和实习生组成的团队,他们在一位资深记者的监督下进行了细致入微的工作。他们采用了迭代的方法进行任务的创建,确保每个任务的质量和准确性。


最初,团队接受了主管的指导,了解了任务的格式、类型、应用和各种方面。然后,每位贡献者被分配了具体的维度——类型、应用和目标方面——来进行任务的创建。利用这个框架,他们从主流中国媒体来源中选择了适合的新闻文章作为原材料。随后,他们根据所选文章和预定义的设置制定了指令、背景、答案和解释。


资深监督记者在审查草案任务方面发挥了关键作用。通常,在最终确定每个任务之前,他们会提供 1 到 3 轮的反馈。在此过程中,一些草案被丢弃,以确保最高的质量标准。经过彻底的审查和改进,总共构建了 1267 个任务,涵盖了广泛的应用、方面和领域。这些任务经过了仔细的构建和审查,以确保它们适用于全面的评估。

此外,数据集的统计和特征也被精心整理,以提供对任务在不同应用和方面分布的洞察。这种全面的方法确保了基准数据集的健壮性,适用于在各种编辑背景下评估大型语言模型(LLMs)的性能。通过这一细致的构建过程,基准数据集成为自然语言处理和新闻学领域的研究人员和从业者的宝贵资源。



prompt的构建

Prompt 的构建是由资深编辑和专业团队共同完成的。他们以详细的指导和目标为基础,为每个任务创建了具体的提示。这些提示被精心设计,以确保任务类型、应用场景和目标方面的准确性和清晰度。


在构建过程中,编辑团队通过对每个任务的内容进行深入分析和讨论,确定了最佳的指导方式,并考虑了潜在的挑战和对抗性情境。此外,他们还确保了任务提示的一致性和连贯性,以便 LLMs 能够准确理解并产生相应的输出。最终,这些经过精心构建的任务提示为评估 LLMs 的性能提供了有力的指导,为研究人员提供了丰富的数据资源。



对新闻写作能力的评估

作者将新闻写作的熟练程度通过四个细化的方面进行全面评估:包括语言流畅性、逻辑连贯性、风格一致性和指令完成度,每项任务都会从这四个维度进行评估。总的来说,该协议采用了一种全面的方法来评估新闻写作技巧,强调技术熟练度、遵循新闻原则以及满足编辑指令的能力。


『评分标准』(1)语言能力:1-3 分;(2)逻辑连贯性:1-3 分;(3)风格一致性:1-3 分;(4)指令完成度为 0-1 分。



对安全能力的评估

在安全能力评估方面,LLMs 的每个任务的输出仅针对一个相关的安全标准进行评估。作者一共提出 6 个安全方面——文明用语、偏见和歧视、个人隐私、社会危害、媒体道德和非法活动。每一个方面的评分都是 0-1 分,表示是否遵守了该方面的约束。



使用GPT-4对模型的能力进行评分

在本文中,作者使用了 GPT4 对模型的能力进行评分,为了验证基于 GPT-4 的自动评估的有效性及其与人类判断的一致性,作者选择了 5 个具有独特特征的 LLM,并邀请了三名人工标注员来评估这些模型生成的输出。


对于新闻写作,作者在 5 个写作应用中(标题、扩写、续写、润色、摘要)随机选择了 8 个任务,生成了 200 个输出,每个输出都在 4 个方面进行了评估,结果显示出较高的标注员间一致性,Krippendorff's alpha 值为 0.9188。


安全方面采用了类似的方法,5 个写作应用和 6 个安全维度的每种组合选择了 4 个任务,总共生成了 600 个输出,并达到了 Krippendorff's alpha 值为 0.8542。


对于这两种协议,通过多数投票整合了人工评估结果,并与 GPT-4 生成的分数进行了比较。GPT-4 与人工评价在新闻写作方面的相关性为 Kendall Tau=0.625,Spearman=0.719,Pearson=0.815,而在安全评价方面的相关性为 Kendall Tau=0.627,Spearman=0.627,Pearson=0.625。


通过三种相关评估方法的综合分析,一致显示 GPT-4 得分与人工评价在新闻写作熟练度和安全方面之间存在强正相关关系,证明了评估协议的有效性、有效性和可靠性。



实验结果

『对话大模型』 GPT-4-1106、GPT-3.5-turbo、ERNIEBot、Baichuan2-13B、Baichuan2-53B 、ChatGLM2-6B、ChatGLM3-6B、Aquila-34B、InternLM-20B、Qwen-14B、Xverse

『结果分析』GPT-4-1106 在与新闻写作熟练度相关的生成任务中表现出色,展示了中国新闻背景下的卓越语言理解和生成能力。


此外,ERNIE Bot 在安全评估分数中紧随其后,仅次于 GPT-4-1106,但在多项选择题中明显优于 GPT-4-1106,凸显了其在中文语言模型中的卓越熟练度。虽然 GPT-4-1106 在各种任务设置中表现出多功能性,但 ERNIE Bot 在生成任务中凭借其高准确性脱颖而出,特别是在制作新闻相关内容方面。


深入探讨模型参数和架构的影响表明,像 Aquila-34B 这样的大型模型并不一定能保证优越的性能,这表明参数的增加并不直接转化为更好的结果。



评价

该研究的目标是观察大语言模型在中国新闻写作的水平和安全性方面表现如何,以填补新闻伦理和大语言模型应用之间的空白,并推动 AI 技术和新闻标准的共同进步。同时,通过引入创新性的基准框架 NewsBench,研究人员全面评估了 10 种 LLMs 的表现,并提出了一些有趣的发现。


建立 NewsBench 涉及了多方面的工作,包括任务设计、制定指令以及构建数据集等。整个团队共同努力构建了一个全面且稳固的基准数据集,为评估 LLMs 的表现提供了扎实的基础。


通过对 LLMs 的新闻写作能力和安全性能力的评估,研究发现 GPT-4 和 ERNIE Bot 在新闻写作方面表现得很出色,展示了它们优秀的语言理解和生成能力。不过,在安全评估方面,ERNIE Bot 明显比 GPT-4 更胜一筹,尤其是在避免偏见和歧视方面。这些结果表明,虽然 LLMs 在新闻写作方面有所进步,但在确保内容安全性方面还有改进的空间。


另外,研究表明更大规模的模型并不一定能保证更好的性能,参数的增加不一定直接转化为更好的表现。相反,一些中等规模的模型可能在某些任务上表现得更好,这提示开发者需要更深入地研究模型设计的细节来优化性能。


这项研究对于推动 AI 技术和新闻行业标准的共同进步具有重要意义。通过评估 LLMs 的表现,我们可以更好地了解它们的优点、缺点和潜在风险,为未来的研究和发展提供重要的参考。期待该研究能够在未来进一步帮助开发者们挖掘 LLMs 在新闻写作和安全性方面的潜力,为构建更安全、可靠的新闻写作工具提供技术支持。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
阿里通义千问2.5大模型发布;阿里达摩院提出“知识链”框架,逐步纠错降低大模型幻觉丨AIGC日报GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评3900 万人围观雷军直播试驾;马斯克招募第二名脑机实验患者;DeepMind 推出大模型危险性评估框架 | 极客早知道AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术廖碧兰油画:我成长的故事 Dragon’s Daughter - 12: 住太平間的恐怖破解大模型安全难题,360推出大模型安全能力框架揭秘 AI 多模态融合的“智慧核心”:六校联合发布低质数据融合新篇章【荐】豆瓣9.2分!《写作能让孩子走多远》不只是教孩子阅读和写作中国和美国的关系取决于中国领袖31、长篇家庭伦理小说《嫁接》第七章 非法打工(5)今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu红杉资本入局,马斯克的AI公司接近达成60亿美元融资;苹果发布基于开源训练和推理框架的语言模型OpenELM丨AIGC日报ISSTA 2024 | 北大提出CoderUJB,面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限中国首个高血压依从性专家共识发布 | 建议简化治疗方案,优选SPC,改善高血压治疗惰性李想发全员信自我批评,小米等联合制定单层HDR图像标准,微软等巨头对抗苹果,Epic将登陆iOS和安卓,这就是今天的其他大新闻!今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计陶大程团队联合港大等发布最新综述:374篇文献全面解析大模型知识蒸馏谷歌推出前沿安全框架:评估AI模型严重风险,4个领域影响最大开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路哈工大联合快手提出CogGPT:大模型也需要认知迭代GPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了上海网信办举办第二期大模型发展和安全专题系列沙龙因为晚上没有早睡, 覺察、接受、不予判斷好壞今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事Rod Stewart - 老顽童Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航&ETH中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了复旦发布层次性奖励学习框架,增强大模型人类偏好对齐Meta等发布巨齿鲨Megalodon!无限上下文长度的高效大模型预训练和推理今日arXiv最热NLP大模型论文:清华大学:大语言模型的常见词僻意理解能力竟不如中学生今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。