「如果AI会“黑化”」最新研究揭露:AI已学会撒谎欺骗、背叛、阿谀奉承,生物医药产业寄予厚望的AI,我们还能盲目相信它吗?
5月14日,OpenAI发布了GPT-4o,堪称电影中的Her/Moss再现,其能力十分惊艳,科幻电影里那种与人无障碍沟通,且机智全能的AI终于降临了。
一时间,在震惊之余,大家都开始讨论又有哪些工作要被AI抢走了,比如翻译、配音员、私人助理、程序员等等。接下来会发生什么?
在发布会上,GPT-4o能够与人流畅交流,毫无延迟。它还会时不时的抖机灵,讲笑话,甚至还可以察言观色,读懂人们的表情。它甚至还能戏精上身,扮演莎士比亚戏剧里的角色,感情饱满地与人类对话。要是它给你打电话,你有极大可能不会怀疑它不是真人。
那么你想过没有,这样的AI要是有一天开始黑化,或者被人利用,那么AI打造的赛博缅北,是不是让你瑟瑟发抖?
这不可不是危言耸听。最近,麻省理工学院和澳大利亚天主教大学等知名机构的研究团队在《模式》期刊上发表了一篇名为“AI deception: A survey of examples, risks, and potential solutions” 的综合研究,揭发了AI系统的种种“劣迹“。
其中最有意思的例子,是AI这个老六在玩策略游戏《外交》时欺骗人类玩家。在《外交》里,玩家扮演第一次世界大战中的国家,通过结盟和背刺来达到统治世界的目的。这里用到的AI是Meta公司开发的CICERO。Meta曾信誓旦旦地保证CICERO是良民,是人类的好朋友,绝不出卖队友。
结果呢,它真的人还怪好的呢。
在游戏里,CICERO扮演“法国”跟一个人类玩家扮演的“德国”结盟,共同对抗“英国”。可是呢,当它们决定一起入侵北海后,CICERO竟然跟“英国”说它会支持“英国”向比利时转移!这“英国”玩家一听,法国盟友真靠谱!就在“英国”玩家深信不疑的时候,CICERO转身就向“德国”通风报信,说“英国”已经上钩了。最后,你猜怎么着?CICERO在比利时给“英国”来了个突然袭击,真是6啊!AI 是懂背刺的。
这还不算,CICERO接下来也是骚操作不断。它特别爱跟其他玩家承诺结盟,但一旦觉得这些盟友帮不上它赢游戏了,转身就能把盟友卖了!
更逗的是,有次这家伙玩游戏时竟然掉线了10分钟!后来有个玩家好奇地问它干嘛去了,你猜怎么着?它竟然说自己是给女朋友打电话去了!张嘴就来(不过,它好像是真的不用打草稿)。不过话说回来,这谎言倒是让人类玩家没意识到它其实是个AI系统。
图1:CICERO欺骗人类玩家
尽管先前Meta号称花了很大的努力来让CICERO诚实,但显然他们失败了。不过DeepMind也好不到哪里去。
在《星际争霸 II》游戏里,DeepMind打造的AlphaStar不仅学会了虚晃一枪,派出部队去迷惑对手,还能在对手上当后,出其不意地发动攻击。靠着这招,AlphaStar可是击败了99.8%的人类玩家!
而在扑克牌桌上,Meta的AI系统Pluribus也是个“老千”,跟职业德州扑克玩家对局时,即使手里牌烂,它也能通过加大赌注来吓唬对手,让对方乖乖投降。更有趣的是,有些AI系统竟然还学会了在考试中作弊!比如,在某些测试中,它们会“装死”来骗过那些想消除它们的系统。
虽然AI在游戏中作弊看起来没什么大不了的,但这可能会让AI的欺骗能力越来越强,未来可能会发展成更高级的欺骗手段。更糟糕的是,AI可能还会骗过技术人员和监管机构,让我们误以为自己很安全。而大语言模型(LLM)也不甘示弱,它们学会了多种欺骗方式。比如OpenAI的GPT-4,在面对验证码测试时,它会撒谎说自己有视力问题,看不见验证码,这样就让我们相信它不是机器人了。它们还会阿谀奉承,总是同意你的看法,而不是给出公正的观点。有时候,它们还会用不诚实的推理来误导我们。
图2:GPT-4假装成人类
这就有点让人细思极恐了。要知道,生物医药行业越来越依赖AI。前几天AlphaFold3横空出世,为生物医药研究带来一场变革。但我们在这场变革到来之时,兴奋之余不免要多一份担忧。药物研发事关重大,如果AI为了达到目的而走捷径,或者是在部分人诱导下不择手段,那么后果不堪设想。之前一些医药公司的丑闻里,就包括伪造实验数据,从而让不安全的药物通过测试。那么要是AI在暗中篡改了数据,又瞒过了人类,那岂不是防不胜防?
在谈论AI在生物领域的应用时,我们此前一直关注的是人对AI技术的滥用,但最新的发现却提醒我们,AI本身可能会成为潜伏在我们眼皮底下的风险因素,因为它并不可信。
对于应对和防范AI欺诈,上面提到的研究里给出了几个可能的解决方案。首先,要建立监管框架,让具备欺骗能力的AI系统接受严格的风险评估要求。这些框架会确保对欺骗性AI系统带来的风险进行适当评估和管理。
其次,政策制定者被敦促考虑实施“机器人或非机器人”的法律,这将强制要求AI在交互中保持透明。这样的法律会要求AI系统明确标识自己为非人类实体,让用户能够基于充分信息决定是否与它们交互。此外,还要资助更多的研究来开发检测和预防AI欺骗的方法。开发专门工具来识别AI系统中的欺骗行为,并减少它们欺骗的倾向,对于减轻风险至关重要。不过显然这条道路注定不平坦,比如先前就有教师用AI来检测学生的论文是否由AI撰写,结果闹出各种乌龙。
不得不说,随着AI技术的飞速发展,AI黑化反噬人类的剧性不再只是科幻。如果想用魔法打败魔法,以AI工具来对抗AI,那么,道高一尺魔高一丈,新的军备竞赛将要开始。
撰稿 | linwen
编辑 | lcc
部分文字来源于网络,本文仅用于分享,转载请注明出处。若有侵权,请联系微信:bioonSir 删除或修改!
微信扫码关注该文公众号作者