直播预告 | 上海财经大学博士生蔡树阳:通过单个空格逃避ChatGPT检测器
报告介绍
ChatGPT带来了革命性的社会价值,但同时也引发了人们对人工智能生成内容被滥用的担忧。因此,一个重要的问题是如何有效检测内容是由ChatGPT生成还是人类生成的。现有的检测方法建立在这样一个假设之上,即人工智能生成的内容和人类生成的内容之间存在着分布差异。这些差异通常是通过统计信息或分类器来识别的。
我们的研究挑战了检测器中的分布差异假设。我们发现检测器并不能有效地区分人类生成和人工智能生成内容之间的语义和风格差距。相反,“微小的差异”,比如“额外的空格”,变得对于检测至关重要。基于这一发现,我们提出了“SpaceInfi”策略来逃避检测。实验证明了这一策略在多个基准和检测器上的有效性。我们还对为什么“SpaceInfi”能成功逃避基于困惑度的检测提供了理论解释。我们的发现为理解和构建更实用的ChatGPT检测器提供了新的见解和挑战。
蔡树阳
上海财经大学在读博士生
蔡树阳,上海财经大学在读博士生二年级,导师为上海财经大学崔万云副教授。研究方向为NLP和大语言模型,主要包括知识图谱和数据挖掘,曾获国家奖学金。
扫码下方二维码
进入直播间观看
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章