Redian新闻
>
OpenAI的文本分类器悄悄停用:它们也分不清AI生成的内容了

OpenAI的文本分类器悄悄停用:它们也分不清AI生成的内容了

公众号新闻

机器之能报道

编辑:梓文

OpenAI 停用 AI 分类器。


今年 1 月 31 日 OpenAI 发布的 AI 分类器已于 7 月 20 日悄悄停用。


OpenAI 没有发布宣布该消息的新公告,而是在曾经发布 AI 分类器的网页上加入了一段它不可再用的文字。


图源:https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text


OpenAI 表示,AI 分类器停止使用是因为它的准确率太低。他们将致力于研究更加有效识别文本来源的技术,并承诺开发、部署判断音频或视频内容是否是 AIGC 的机制。


再也无「盾」抵「长矛」



有网友调侃,OpenAI 不仅致力于识别 AI 内容,还致力于让 AI 内容更像人类。这两件矛盾的事情,原本就是很难达到平衡的。不过 OpenAI 的终于在数据面前卸下了最后的「倔强」,它的「盾」,终究是被破了。


其实,在 AI 分类器刚发布时,OpenAI 就已经说明了它的不可靠性。


最初,AI 分类器在英语文本「挑战集」的评估中,分类器正确地将 26% 的 AI 编写的文本识别为「可能是人工智能编写的」,而 9% 的情况下将人工编写的文本错误标记为 AI 编写的文本。AI 分类器的可靠性通常随着输入文本长度的增加而提高。与之前发布的分类器相比,这款分类器在处理来自最新人工智能系统的文本时可靠性明显提高。


并且该 AI 分类器的局限性极大,OpenAI 不将其定义为主要的决策工具,而是一种确定来源的补充方法。因为:


1. 分类器在短文本(低于 1000 个字符)上非常不可靠,甚至更长的文本有时也会被分类器错误标记。

2. 有时,人类编写的文本会被分类器错误地标记为 AI 编写。

3. 建议仅对英文文本使用分类器。它在其他语言中的表现明显更差,并且在代码上不可靠。

4. 无法可靠地识别非常可预测的文本。例如,无法预测前 1,000 个质数的列表是由 AI 还是人类编写的,因为正确答案总是相同的。

5. AI 编写的文本可以通过编辑来躲避分类器。分类器可以根据成功的攻击进行更新和重新训练,但不清楚检测是否具有长期优势。

6. 众所周知,基于神经网络的分类器在训练数据之外的校准能力很差。对于与训练集中的文本有很大差异的输入,分类器有时会非常自信地做出错误预测。


以上这些信息说明,OpenAI 的 AI 分类器这个「盾」其实本就不够坚固。现在它因为准确率的进一步降低,已经在辨别文本类 AIGC 上发挥不了作用而被停用。



这意味 AI 输出的文本内容已经与人类已经十分相似,分辨难度也从「高级」变为了「地狱级」。


同样,当 AI 生成的音频和音频也与人类产出难以区分时,我们又该如何应对?


如何识别AI内容成为难题


毕业季刚刚过去,毕业生终于卸下了毕业论文的重担,准备奔赴社会。但与往年不同的是,今年许多毕业论文的「第二作者」其实是 GPT。


今年 3 月,上海市教育委员会副主任倪闽景曾谈到 GPT 对于教育的影响,他说道:「ChatGPT 把教育逼到了墙角」。


这是什么原因导致的?


OpenAI 创建的 GPT 成为强大的工具。它不仅可以帮助人们快速了解某一方面知识、提供相应的行动思路,还能生成逻辑严密的长文,甚至能够不断对输出内容进行润色。这对于教育行业而言,可喜却又可忧。喜的是效率提高,学生能够站在 GTP 的「肩膀」上有更多成长,忧的是成长的只有 GPT,而非人类自己。


早在去年 12 月上旬,洛杉矶联合学区就暂停了对 ChatGPT 网站的访问,自此国外院校不断加入该行列,推进 ChatGPT 的禁用。国内虽未有严令禁止的条例,但是各高校也在论文写作上不同程度地限制了对 GPT 的使用。


不止校内,校外禁止 GPT 参与的行为也比比皆是。尤其是各种期刊。如 Nature 在去年 12 月发文表达了对 ChatGPT 沦为学生代写论文工具的担忧,继而在 1 月底下场,针对 ChatGPT 代写学研文章、列为作者等系列问题作出了规定,ChatGPT 和其他任何 LLM 工具都不可以成为论文作者。


但这些措施或许并未真正起效,因为 AIGC 的识别难度太高。


今年四月,iParadigms 研发出 Turnitin 检测 AI 写作系统已被墨尔本大学、新南威尔士大学等高校采用。


据 Turnitin 6 月发布的统计,在该系统发布的两个月内检测过的 6500 万篇论文中,有 210 万篇文章中 AI 写作内容达 80%,670 万篇论文中 AI 写作内容达 20%。这个数据说明 AI 写作几乎已经全面入侵了教育、学术领域。



那么这个可以检测 AI 内容的 Turnitin 是教育者们新的「救命稻草」吗?答案是否定的。


虽然 Turnitin 可以通过一定技术分析文本片段,并评判在文章内 AI 生成内容所占比例。但 Turnitin 官网也表示,其 AI 写作检测并不总是准确的。Turnitin 首席产品官提示,鉴于 AI 书写检测中的误报,教师要综合专业经验和对学生的了解进行判断。


至于 Turnitin 未来会不会与 OpenAI 的 AI 分类器殊途同归,就等待时间来验证吧。


在留言区留下你的想法吧。


参考链接:

https://decrypt.co/149826/openai-quietly-shutters-its-ai-detection-tool

https://baijiahao.baidu.com/s?id=1756709397637388684&wfr=spider&for=pc

https://twitter.com/KevinAFischer/status/1683898199981928450

Turnitin AI detection feature reviews more than 65 million papers | Turnitin (https://www.turnitin.com/press/turnitin-ai-detection-feature-reviews-more-than-65-million-papers?utm_source=twitter&utm_medium=organic&utm_campaign=communications)


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
螭龙、夔龙、虬龙、应龙、蟠龙……傻傻分不清楚!如何判别大语言模型生成的文本?很多人分不清!“账号”“帐号”上热搜,专家回应→汤姆克鲁斯和替身合照被疯传,网友:这也太像了!分不清还在傻傻的分不清 Linux 的文件权限吗?束沪语歌分不清梦境和现实?只因大脑想象与视觉功能由同一区域负责 | Nature子刊这种疾病极易和4类风湿病分不清!但主任一眼看穿……傻傻分不清!!双胞胎姐妹与双胞胎兄弟交往,自爆经常认错对方.....Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现抒发装饰石材分类、加工工艺解析及成本分析【装修干货】翘臀?骨盆前倾?傻傻分不清楚。还分不清bin log 、redo log 跟 undo log?《不完美受害人》:成功和赵寻,分不清谁是受害人?Hélène Binet:光的哲学家硕士学位傻傻分不清?MSc、MA、MPhil、MRes...到底是什么?“突然分不清我和智障的区别了...”这游戏震撼我全家!给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术《花尾渡》(小说) 第十章 万贯家财总有源粉红宝粉蓝宝傻傻分不清?你不是一个人~ ——“大王私房课系列二”第61期起猛了,马和长颈鹿傻傻分不清楚......​SIGIR 2023 | 基于图的预训练和提示来增强低资源文本分类无需任何3D数据,直接文本生成高质量3D内容,清华朱军团队带来重大进展还分不清CSR、ESG?点进来一目了然还在傻傻的分不清Linux的文件权限吗?帕拉伊巴,拉贡碧玺,傻傻分不清?——“大王私房课系列二”第75期Amazon/亚马逊公司2023年股东年会公共政策委员会提案核辐射用什么传感器检测?核辐射检测仪/传感器傻傻分不清?(不一样!)春游Yorkshire四首湿疹和痱子分不清?这招教你轻松辨别冰淇淋、雪糕、冰棍傻傻分不清?一篇说清楚→共创类器官新纪元,国际类器官研究协会首届年会圆满落幕!傻傻分不清!是“账号”还是“帐号”?国家语委最新回应布洛芬vs对乙酰氨基酚分不清?这些宝宝退烧用药原则你必须知道!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。