Redian新闻
>
不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024 Spotlight

不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024 Spotlight

公众号新闻
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


本文通讯作者为马里兰大学计算机系的博士生胡正冕,其导师为 Heng Huang。他的主要研究方向是采样与机器学习理论,曾在ICML、NeurIPS、ICLR等顶级会议上发表多篇论文。邮箱: [email protected]

随着大语言模型(LLM)的快速发展,其在文本生成、翻译、总结等任务中的应用日益广泛。如微软前段时间发布的Copilot+PC允许使用者利用生成式AI进行团队内部实时协同合作,通过内嵌大模型应用,文本内容可能会在多个专业团队内部快速流转,对此,为保证内容的高度专业性和传达效率,同时平衡内容追溯、保证文本质量的LLM水印方法显得极为重要。

如何从使用面的事后追溯管控生成式AI的应用,因此成为了一些研究者关注的议题。

为了应对这一挑战,研究者们提出了在LLM生成过程中嵌入水印的方法,以实现对模型输出内容的追踪和溯源。

近日,马里兰大学、匹兹堡大学和滑铁卢大学的研究者在ICLR 2024上发表了一项名为「Unbiased Watermark for Large Language Models」的研究,提出了一种新的LLM水印方法——无偏水印(Unbiased Watermark)

该方法不仅能在LLM生成过程中嵌入水印,实现内容溯源,还能保证嵌入水印后的文本质量不受影响。相关论文已被ICLR 2024会议接收为Spotlight论文。


  • 论文地址: https://openreview.net/pdf?id=uWVC5FVidc
  • 代码仓库: https://github.com/xiaoniu-578fa6bff964d005/UnbiasedWatermark

无偏水印方法

传统的LLM水印方法存在一个两难困境:「如果水印信号过强,虽然易于检测,但会影响生成文本的质量;如果水印信号过弱,虽然对文本质量影响小,但难以检测。」

这一矛盾导致传统水印方法难以在内容溯源和质量保证之间取得平衡。

为了解决这一问题,该研究提出了无偏水印方法

其核心思想是:利用多个水印分布,而不是单一的水印分布。这些水印分布的组合能够恢复原始的语言模型输出分布。在生成过程中,根据一个私钥在所有可能的水印分布之间进行选择。

对于没有私钥的观察者来说,含水印模型的期望输出与原始模型完全一致,从而保证了无偏性。但对于拥有私钥的人来说,相应水印分布与原始分布之间的差异可以很大,从而实现可靠的水印检测。

无偏水印方法主要包括两个关键组件:无偏重赋权(Unbiased Reweight)独立水印码(Independent Watermark Codes)

无偏重赋权的目的是确保含水印分布的期望值与原始分布相匹配。

研究者提出了两种具体的无偏重赋权方法:δ-reweightγ-reweight

  • δ-reweight方法利用逆变换采样(Inverse Transform Sampling)的思想,根据原始分布和一个均匀分布的随机数来生成水印分布。
  • γ-reweight方法则先对词表进行随机重排,然后对重排后的词表进行分段线性变换,得到水印分布。

理论分析表明,这两种方法都满足无偏性要求

δ-reweight和γ-reweight方法示例

为了保证整个序列的无偏性,水印码在每一步生成过程中都必须是独立的。由于水印码依赖于上下文码(Context Codes),研究者引入了上下文码历史(Context Code History)的概念。

在生成过程中,如果某个上下文码出现过,就跳过水印嵌入,直接使用原始的语言模型输出分布。这样可以避免重复的上下文码导致的水印码相关性,从而保证水印码的独立性。


 水印的检测

在水印检测方面,该研究提出了两种检测方法:基于似然(likelihood-based)的检测无需似然(likelihood-agnostic)的检测。

基于似然的检测方法利用语言模型的输出概率进行水印检测。研究者首先介绍了对数似然比检验(LLR Test)的方法。LLR Test比较给定文本在原始分布和水印分布下的似然,如果似然比超过一个阈值,则判定该文本含有水印。

LLR Test在理论上是最优的检验方法,能够在I类错误(假阳性)和II类错误(假阴性)之间取得最佳平衡。

然而,标准的LLR Test对原始分布和水印分布的扰动比较敏感。如果文本在水印检测前被修改,真实的水印分布可能与假设的水印分布不同,导致检测性能下降。为了解决这个问题,研究者提出了一种稳健的LLR Test变体。

该变体引入了一个新的优化问题,允许水印分布有小幅度的扰动。实验表明,稳健的LLR Test在面对文本修改时,仍然能保持较好的检测性能

基于似然的检测方法需要访问语言模型的输出概率,在某些情况下可能不易求解。

为此,研究者还提出了一种无需似然的检测方法。该方法不依赖于语言模型的输出概率,而是利用Gumbel Trick生成水印码,并设计了一种新的打分函数。

理论分析表明,无需似然的检测方法同样能够保证I类错误的上界。然而,与基于似然的检测方法相比,无需似然的检测方法的检测效率较低,在相同的I类错误率下,通常需要更长的文本序列才能可靠地检测到水印。


实验结果

研究者在文本摘要和机器翻译两个任务上,评测了无偏水印方法的性能。

实验结果表明,嵌入水印后的文本质量与原始模型输出相当,在ROUGE、BLEU等指标上没有显著差异。相比之下,传统的水印方法(如Soft Red List)会导致明显的质量下降。


此外,研究者还测试了无偏水印方法对多种可能的文本变化的鲁棒性,包括温度改变,Top-k采样,输入扰动,模型扰动,随机替换攻击。

实验表明无偏水印方法具有较强的鲁棒性,能够应对一定程度的文本修改攻击。

总结

无偏水印方法为LLM水印技术提供了一种新的思路。通过新颖的采样策略,该方法在保证生成文本质量的同时,实现了可靠的水印嵌入和检测。这为解决LLM生成内容的滥用问题提供了一种有效的解决方案。

无偏水印技术在维持文本质量的同时,也可能引发一些伦理问题。由于用户无法在不知道创建者私钥的情况下检测水印,这可能导致未经披露的跟踪行为。

在实际应用中,人们应当谨慎、合乎伦理地应用无偏水印方法,并向用户明确说明其存在,工作原理和意义。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Highlights | 路易威登助力2024巴黎奥运会、香奈儿手袋奏响全新“情感三部曲”......比LERF提速199倍!清华哈佛发布LangSplat:三维语义高斯泼溅 | CVPR 2024 Highlight回国杂记(2403)难忘农垦中学那些人和事CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动搬家清囤的Lululemon, Aritzia Randy & Murphy, Sophie Webster蝴蝶鞋及其他Spotlight消费满$120,减$40!今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 SpotlightICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型ICLR 2024 | 跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIPSpring 全家桶版本更新:Spring Boot、Spring Security 和 Spring ModulithICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024在 ICLR 2024,看见中国大模型的力量从莫言说他的母亲想到的~愚人节(4/1/2024)Highlights|用时装浪漫致意2024七夕情人节个人感慨之126 谁是傻子?ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量CHANEL的审美又回来了!2024/25 秋冬系列成衣很出彩ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性腾讯大模型APP真实测评!七家国产大模型“battle”,元宝顶得住吗?大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事Highlights|迪奥于爱丁堡呈献二零二五早春女装成衣系列、香奈儿发布2023/24高级手工坊系列广告大片....Highlights|2024“钟表与奇迹”日内瓦高级钟表展ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练Best CD Rates Of April 2024: Up To 5.42%English Five DaysAAAI 2024 | 清华提出DRM:无偏差的新类发现与定位新方法ICLR 2024 | AnomalyCLIP:零样本异常检测新范式ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好Blending Sports With Travel, Chinese Fans Set Sights on Paris《春姑娘》&《枕着光的她》今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现AI顶会ICLR,今年只有一家中国大模型公司受邀演讲洛杉矶东区猫狗领养活动 4/28/2024 周日下午3Highlights|香奈儿2024/25早春度假系列、路易威登发布Color Blossom珠宝系列天河石新作......ICLR 2024 | 再论生成数据能否帮助模型训练?元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入清华等高校推出首个开源大模型水印工具包MarkLLM,支持近10种最新水印算法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。