人工智能热潮来了,官司也来了
一切发生太突然,人工智能一路从科幻产物到新奇玩意,又摇身一变成了肉眼可见的未来事物,这一切都来得太快了。
新闻头条让我们可以简单地估量时代的变化,比如“微软对火爆文本生成器 ChatGPT 背后公司 OpenAI 的百亿投资”、其他 AI 初创公司寻求大笔资金,学术领域拼命应对试图用 ChatGPT 写学期论文的学生,电子刊物发行商 CNET 及 BuzzFeed 或承认或宣扬其利用 AI 创作内容,其投资者对此加以奖励。
“在这之前,这些还只是没人关心的科学实验”,AI 初创公司 Spawning.ai 联合创始人 Mathew Dryhurst 如是说,“短短一段时间之内,(人工智能)就变成了带有经济后果的项目。”
人工智能兴起的另一个标识则是对 OpenAI 及类似公司提起的诉讼数量。起诉人认为人工智能引擎非法使用他人作品来搭建自身平台及产品,直指当前风口浪尖的 ChatGPT 等生成式人工智能,利用现有文本或图像生成新作品的行为。
2022 年秋,一群匿名版权所有者起诉 OpenAI 及微软,称其涉嫌侵犯在 GitHub 上贡献代码的软件开发者权力。微软与 OpenAI 所合作搭建的的 GitHub 软件平台 GitHub Copilot 据宣传可利用 AI 编写代码。
在 2023 年一月,又出现了由相同律师辩护的另一起,针对人工智能图像生成器 稳定扩散 开发商 Stability AI 所提起的版权侵犯集体诉讼。与此同时,总部位于英国的图片与艺术图书馆盖蒂图片社(Getty Images),表示也将以未经许可的图片使用问题对稳定扩散提起诉讼。
人们常常条件反射地将法律条文的限制看作是科技繁荣发展的必经之路:有热度又有钱,就一定有律师寻味而来。但现在我们所要面临的问题非常值得思考,一是关于知识产权的本质问题,二则是在搞清楚规则之前一头闯进全新技术领域的利与弊。的确,目前生成式 AI 看起来像是避无可避的发展方向,但这些问题的答案将确定我们对其的使用方式,以及 AI 对我们商业及文化的影响。
历史总是在自我重复。音乐行业花费了数年时间才适应了 CD 到数字化的转变,图书出版商也曾一度反对谷歌的图书电子化。AI 的热潮势必会“引起各类创作者间的常见共鸣:‘我的东西被偷了’”,曾在 Napster 年代与音乐产品公司斗争数年的哈佛法学教授 Lawrence Lessig 说,他认为音乐的所有者当年是在利用版权规则压制创造力。
在 00 年代初期,数字化和版权之间的争论规模不大,只有相对较少的人在关注,但如今家家都连上了互联网,即使不以“内容创造者”自居,你所写的或分享的东西也有可能会成为 AI 引擎的一部分,并以你从未想象过方式被使用。
除微软外,其他率先进入 AI 领域的科技巨头还有谷歌和 Facebook,他们虽然还未将大多产品公布与众,但投资也绝对不少。他们比网络繁盛期的同行还要更加强大且稳固,但在面对法庭上的挑战时也更输不起,他们拥有足够的资源对抗并拖延,直到法律后果变得无关紧要。
AI 背后的技术是个复杂的黑盒,人工智能的能力和预测性或许也被过于夸张化。不可否认,有些 AI 软件似乎能通过 MBA 或医学执照考试,但先别急着把你的 CFO 或医生换成个机器人。谷歌粉或许还会称这些 AI 是有知觉的,但别听信了他们的胡言乱语。
人工智能背后的基本理念相对来说还是蛮直接的,搭建一个 OpenAI 类似的引擎只需要摄取海量训练集用于软件的训练,之后就能给出建议,乃至代码、艺术、文本的生成。
这些引擎一般都会在互联网上搜索训练用的数据集,和谷歌的搜索爬虫一样,发现网页的内容并为查询搜索编撰条目。但 Meta 等公司所用的 AI 引擎则是可以访问其专有的海量数据集,这些数据多半是来自用户在其平台上发布的文字、图片和视频。Meta 拒绝评论公司对使用这类数据搭建 AI 产品(类似 ChatGPT 引擎)的计划。不过也有授权给 AI 引擎的数据,比如授权给 Meta 和 OpenAI 的图片库 Shutterstock。
与音乐版权诉讼的世纪之争不同,没人会说 AI 引擎是在逐比特照搬原有数据后用其原名发布。目前的法律纠纷主要关注这些数据是如何被加入 AI 引擎,又有谁有权利使用这些数据。
AI 的支持者认为,其一,引擎可以不经许可学习现有数据集,因为法律不禁止学习;其二,从一组不属于自己的数据集所演变出的东西与原数据完全不同,因此是受法律保护的。谷歌的图书索引功能因将大量书籍编目并摘录而被作者和出版商告上法庭,在这场漫长的法庭斗争中谷歌成功凭借第二条胜诉。
反对人工智能引擎的观点似乎更为简单。盖蒂图片社就表示自己会很乐意将图片授权给 AI 引擎使用,不过稳定扩散背后的公司 Stability AI 还没掏钱。在其他针对 OpenAI、微软或 GitHub 的诉讼中,律师认为微软和 OpenAI 无视代码商用的开源软件许可,侵犯了 GitHub 上代码提交者的权力。
至于针对 Stability AI 的诉讼,这些律师则认为图片引擎即使输出的不是照搬原图的图像,也的确是在抄袭艺术家的作品,并将 AI 的输出能力与艺术家的谋生能力放到同一个竞争平面上。
“我不反对 AI,也没人会反对 AI。我们只希望 AI 是公平且具有道德,是正确的”。这两起集体诉讼中原告的代表律师 Matthew Butterick 如是说。不过有时候这些数据问题问的人不同,答案也会不同。埃隆·马斯克虽然是 OpenAI 的早期投资者,但在买下推特之后,他说自己不想让 OpenAI 爬掉推特的数据库。
我得知 OpenAI 可获取推特数据库用于训练时毫不意外,我把这个问题暂时停掉了,需要更进一步了解治理结构和未来的收入计划。OpenAI 最初是开源且非盈利性的,这两点都是错的。—— 埃隆·马斯克 (@elonmusk) 2022 年 12 月 4 日推文
不过,这些未来大事件并不总是如此。还记得人们在试图搞明白 Web3 到底是什么,吉米·法伦推广 Bored Ape NFTs,以及 FTX 支付百万美元超级碗广告费的时候吗?这些仅仅是一年之前的事情。不过,随着人工智能炒作泡沫的膨胀,作者也在思考这起事件与二十多年前音乐与技术之争的相似之处。
简言之,任何能连上网的人都能免费下载自己想要的所有音乐,完全不用再花 15 美元买一张 CD,这项“文件共享”服务几乎是在一夜之间把音乐行业炸翻了天。音乐界把 Napster 等服务的所有者告上了法庭,甚至就连他们普通用户中 66 岁的老奶奶也不例外。随着时间的推移,唱片公司赢了对 Napster 及同类产品、乃至对这类服务投资人的官司,但也引起了音乐听众的反对,不掏钱买 CD 的有很多,实体专辑的价值也直线下降。
但经过十年的努力,CD 的销量再度回温,唱片公司也最终与 Spotify 等公司达成了和解,允许 Spotify 以按月付费的形式向用户提供音乐收听服务。这些月服务费甚至超过了平均每位听众一年中在 CD 上的花费。现在的音乐权和决定谁能拥有音乐的权力已经价值千金。
不难想象,人工智能发展可能也会走上这个结局。将内容发布到互联网上的群体与科技巨头之间,以集体形式就数据价值方面反复磋商并带来双赢结局。当然,这也就会导致在互联网上发内容的人发现,自己的照片、推文或者绘画草稿对接受数十亿信息输入的 AI 引擎而言意义并不大。
不过我们最后也可能要在法庭对峙,另一种情况则是那些热衷于对挑技术刺的监管者(如欧盟)开始推行规章制度,让 OpenAI 这类的公司越发难做,或者也可能对技术公司未经同意获取数据的行为进行追溯性惩罚。一些来自技术高管的消息称,面对人工智能引擎相关的合作要当心,因为后续可能会被起诉或被要求解除与这些引擎的合作。
但事实则是,明知监管机构惩罚性措施风险的微软,刚刚向 OpenAI 再次投资一百亿美元,切身表明科技行业的回报大于风险。此外,任何法律或监管的决定都得等人工智能之争的胜负分晓后很久才会出现。
目前的中间地带大概就是,了解并担心这些问题的人会告诉人工智能引擎别打扰自己,就和网页制作者知道 “robots.txt” 会让谷歌别爬取自己的网页一样。Spawning.AI 搭建了一个简单工具,“我是否被训练了(Have I Been Trained)”,理论上能发现你的作品是否被喂给过 AI 引擎,并可以在未来的引擎训练中告知其不再使用你的作品。Spawning 的联合创始人 Dryhurst 称这一工具不会对每个人或每个引擎都有效,但这只是一个开始。跟重要的是,这一工具让我们能确定我们想要人工智能做什么,以及不做什么、
“这是一次彩排,也是一次建立习惯的机会,这些习惯将在未来几十年间被证明是至关重要的”,Dryhurst 在给作者的电邮中称,“很难说我们能在两年内还是十年内做好这些。”
查看英文原文:
https://www.vox.com/recode/23580554/generative-ai-chatgpt-openai-stable-diffusion-legal-battles-napster-copyright-peter-kafka-column
你也「在看」吗? 👇
微信扫码关注该文公众号作者