* 后台回复“商论入群”即刻体验主编领读(订户专属全年服务)!
随着生成式AI的兴起,“数据中毒”的风险也在逐渐增加。由于类似ChatGPT和DALL-E 2的算法训练需要在开放式互联网上直接抓取数据,从理论上讲,任何能上网的人都可以在数据中注入“数字毒药”以攻击这些AI工具。有一些数据可能只是降低AI的工具性能,但有一些可能会有更特定的反应,例如在某个特定主题下提供虚假信息。虽然目前还没有数据中毒的重大案例出现,但随着直接联网的AI聊天机器人变得越来越普遍,未来对于数据的处理将会更严谨。在将数据集输入算法之前,生成式AI领域的巨头们会将从网络上抓取的数据集进行过滤。不过,更棘手的问题或许是该由谁来定义什么才算是数字毒药。订阅《经济学人·商论》APP,阅读本篇文章,了解更深入的“数据中毒”相关知识吧!
Digital poisons
让机器学习算法走偏不是很难
构成现代AI系统的基础算法需要大量数据进行训练。这些数据大部分来自开放网络,不幸的是,这让AI容易遭受一种叫作“数据投毒”的网络攻击。这种攻击会修改训练数据集或在其中添加无关信息,让算法学习到有害或不良行为。就像真正的毒药一样,中毒的数据在造成损害之前可能不被察觉。数据投毒并不是个新概念。例如在2017年研究人员就演示过,这种攻击方法如何可能导致自动驾驶汽车的计算机视觉系统将停车标志误认作限速标志。但这种伎俩在现实世界中可行性如何,在当时还不清楚。安全关键型机器学习系统通常在由人类整理和标记的封闭数据集上进行训练,有毒数据难以混入其中而不被察觉,在波士顿的东北大学(Northeastern University)工作的计算机科学家阿利娜·奥普利亚(Alina Oprea)说。但随着近期运行在大语言模型(LLM)之上的ChatGPT和图像制作系统DALL-E 2等生成式AI工具的兴起,企业已经开始在大得多的存储库上训练算法,这些存储库里的数据往往是从开放的互联网上直接抓取的,而且在大多数情况下完全不加选择。从理论上讲,任何能上网的人都可以注入数字毒药攻击这些AI工具,苏黎世联邦理工学院(ETH Zürich)的计算机科学家弗洛里安·特拉默(Florian Tramèr)说。。... ...《经济学人·商论》持续关注全球大趋势,欢迎订阅浏览。订阅商论,即可免费加入【主编领读社群】获取完整解读
📕衍生阅读 |OpenAI火爆触发版权大战:GPT的法律雷区
英国政府发布人工智能产业白皮书,欲加强监管。同时马斯克领衔发布警示AI过快发展风险的公开信呼吁暂停大型人工智能研究半年,搅动硅谷。与人工智能相伴相生的新问题不少,以GPT-4为代表的OpenAI正在重新塑造内容生产,也踏入了一个法律雷区——其影响将远超出创意产业,延伸到使用机器学习的各行各业,如自动驾驶汽车、医疗诊断、工厂机器人和保险风险管理。早在最近的机器人热潮之前,官僚主义十足的欧盟就有一项涉及数据挖掘的版权指令。而专家表示美国缺乏针对生成式AI的判例历史。千禧年前后迅速崛起又衰落的Napster可以为GPT提供前车之鉴吗?《经济学人·商论》推出深度分析,欢迎订阅浏览完整文章。A battle royal is brewing over copyright and AI面对人工智能(AI),音乐行业有两种态度。一种是吉尔斯·马丁(Giles Martin)的做法。他是披头士乐队的制作人乔治·马丁(George Martin)的儿子。去年,为了给披头士1966年的专辑《左轮手枪》重新混音,他使用AI从单声道母带中学习每个乐队成员使用的乐器的声音,比如约翰·列侬的吉他,这样就能把它们分离出来,通过逆向工程制作出立体声。最后的效果令人惊艳。另一种态度也不赖。喜怒无常的澳大利亚唱作人尼克·凯夫(Nick Cave)读了创业公司OpenAI开发的AI工具ChatGPT以他的风格写的歌词。“这歌太烂了,”他写道,“写一首好歌不是模仿、复制或拼凑,而是相反。这是一种自杀行为,它摧毁了一个人过去努力制作出来的一切。”OpenAI于3月14日发布了ChatGPT背后算法的最新版本,名为GPT-4。凯夫恐怕不会为其折服,而马丁可能觉得它颇有用武之地。面对ChatGPT(生成文本)或Stable Diffusion(生成图像)等内容生成应用背后的AI,全球最大的唱片公司环球音乐集团(Universal Music Group)的首席数字官迈克尔·纳什(Michael Nash)以这两人为例,说明人们对AI的兴奋与恐惧。AI可以辅助创作,但也可以摧毁或篡夺这个过程。然而,对于整个录制音乐业而言,这些机器人的出现让人联想到行业历史上的一个重大事件:Napster的迅速崛起和衰落。它是在世纪之交出现的一个主要分享盗版歌曲的平台,最终被版权法打垮。对于那些被指控践踏知识产权的激进的机器人供应商,纳什有一条简单的意见。这话出自一个来自Napster时代的音乐行业资深人士之口,颇有点恐吓的味道:“不要先投放市场,然后才乞求原谅。那是Napster路数。”这里的主要问题不是AI对凯夫的戏仿,或伪造莎士比亚十四行诗。问题是这些机器人在接受训练来生成仿佛出自人手的内容时,吸收了海量的受版权保护的数据。这些信息的来源五花八门:社交媒体、网络搜索、数字图书馆、电视、广播、统计数据库,等等。AI模型被指往往在未经允许的情况下搜掠数据库。原始材料的负责人抱怨说,他们的作品在未经同意、未署名或补偿的情况下被大量窃取。简而言之,一些AI平台对其他媒体的做法可能如同Napster对待歌曲一般——完全无视版权。诉状已经开始满天飞。【付费文章】欢迎打开商论App,订阅后阅读全文。搜索“GPT”获取更多主题文章
🎦衍生影片 | ChatGPT会是下一个iPhone时刻吗?
👇欢迎关注【经济学人集团】视频号
🎉订户专享福利
主编领读 · 订户专属社群
✓每日主编精选文章推送 & 主编解读
✓与商论主编沟通交流
* 后台回复“商论入群”即刻体验主编领读!
全年商论英语学习社区
✓译者领读
✓每日一词+学人习语+译者课堂持续更新
海量商论中英双语往期内容
✓超过3000篇双语文章+译文
✓超过一万分钟主播朗读原文
✓双语纪录片
*入群方式:完成订阅 - 关注微信服务号【经济学人全球商业评论】并后台回复关键词“订户入群” - 添加小助理企业微信等待审核后被邀请加入商论订户专属群