“人类今后留下的史料, 多多少少都有AI参与”

2024-04-30 04:04

撰文｜陈辉、王儒西

来源｜文化纵横

2022年ChatGPT-3.5推出以来，生成式AI的发展与应用正在剧烈冲击内容生产行业。过去一年，我们见证了美国编剧工会与演员工会抵制AI的联合罢工，1.6万名英国画师起诉Midjourney和Stability AI、环球音乐集团联合其他出版商起诉Anthropic、纽约时报公司起诉OpenAI等事件。这些行动不仅反映了内容创作者对生成式AI可能导致的人力替代的担忧，也指向了生成式AI开发者对机构版权内容不告而取，进而导致相关内容行业商业模式难以为继的危机感。我们应该如何看待AI对内容行业的影响？

生成式AI对内容行业的影响可以分为两个层次：一是对内容生产行业既有生产与消费格局的渗透与重塑，二是基于AI原生工作流的新内容生态的搭建。这带来两个显著后果：一是生产力层面，生成式AI正在成为内容行业不可或缺的基础设施，推动内容生产领域的“降本增效”；二是生产关系层面，生成式AI的底层化、基础设施化，引发内容行业职业管辖权的边界调适，特定专业领域的工作内容由谁做、如何做、如何评价等游戏规则正在发生变化。

想象力即生产力：

AI对创意内容行业的重塑

对于创意内容行业而言，生成式AI在很大程度上弥合了创意与实现之间的技术鸿沟。这体现在两个方面：一是普通消费者不需要漫长的学习和对复杂软件的掌握就能创作图像、音乐、视频。普通消费者和半专业人士也可能产出专业水准的作品。二是生成式AI也提升了专业创作者的水平，使其能以更低的成本创作出更多更优质的作品。

OpenAI新近推出的视频生成模型Sora不仅可以基于文本提示生成分钟级的高清视频，还可以实现多个视频之间的流畅过渡，以及视频内容的前后扩展。尤其令人印象深刻的是，其对全局一致性的优秀实现。这标志着视频生成的“ChatGPT时刻”即将到来，并将在影视行业——至少是视频自媒体领域释放巨大的生产力效应。传统的影视拍摄中，每个镜头背后都是庞大的剧组、昂贵的器材与物料，并且需要全部拉到特定的拍摄场地，经后期制作后才得到成片，而视频生成则是从最初的构思、分镜一步实现最终成果，其间省去的成本不可计数。对于内容较为简单的自媒体创作者来说，这类AI将极大简化制作流程。

在音乐行业，生成式AI与功能性音乐的市场需求不谋而合。近年来，音乐内容的消费呈现出明显的场景化、功能化趋势，越来越多的音乐不再追求作者性的表达，而是迎合听众的功能需求（睡眠、冥想、工作、运动等），供其在相应场景下调用为背景音乐。在各大主流音乐平台上，这类区别于传统“艺术性音乐”的“功能性音乐”都占据了首页的显要位置。由于功能性音乐的创作限定于一系列已经十分成熟的音乐风格内，具有较高的重复性，因而十分适合由AI替代。目前，已经出现Endel、Brain.fm、Aimi等基于AI的生成式音乐流媒体应用。

此外，视频、播客的背景音乐也属于这类容易由AI生成的内容，生成音乐技术的发展很快将使得免版税的背景音乐的大量供给成为现实，从而规避长期存在的背景音乐的版权问题。音乐公司靠收版权费盈利的模式将不可持续。面对这一趋势，传统音乐厂商也开始积极参与这一行业转变。2023年起，环球音乐集团开始向Endel提供由旗下音乐家创作的音乐片段，并由Endel用AI将其发展，制作为各种功能性音乐。这种合作方式使专业创作者回归到AI创作流程的中心，给予了其相应的知识产权，在传统行业格局与新技术之间实现了新颖的结合。

在“艺术性音乐”领域，AI也正在改变音乐的创作、分发和消费方式，以及艺术家与听众之间的互动方式。如果说早先AI编曲的影响只局限于行业内部，那么近年来AI翻唱的火爆则真正使生成音乐技术“出圈”。2023年4月以来，标有#aicover的视频在TikTok上已累计超过100亿次观看。在国内视频平台上，以孙燕姿、赵本山等明星的声音演唱的各种AI生成音乐也传播广泛。音乐人格莱姆斯（Grimes）顺应这一潮流，发布了一个名为Elf.tech的产品，允许其他创作者使用她的声音创作新歌，她愿意与创作者平分歌曲收益。未来，这种通过出售声纹（或形象）来变现IP价值、获取AI生成音视频的收益分成的模式也许将会常态化。

电子游戏综合了视频、音乐、文字等诸多媒介，堪称最复杂的创意内容领域之一，因而开发成本高、周期长。尤其是开放世界类游戏，如2018年发行的《荒野大镖客：救赎2》，开发耗时近8年，打造了超过1000名性格各异的NPC（非玩家角色），还包含由100多位音乐家创作的近60小时的音乐。这种大制作使得游戏开发成本达到惊人的数亿美元。2023年的《博德之门3》为了实现空前的玩法自由度，撰写了200万词左右的文本，全都由真人配音，且旁白配音还制作了17种风格。AI的到来将极大改变这种手工作坊式的开发方式，大幅降低大规模开放世界的制作成本。除了替代代码编写、游戏场景建模等重复性工作外，基于多模态AI模型的NPC将是游戏行业的一个重大突破。美国风投公司a16z 2023年的一项调查显示，61%的游戏工作室计划尝试开发AI驱动的非玩家角色。

在可预见的未来，NPC的设计不再需要人工撰写每句台词，而是设定其AI语言模型的参数，即可实现不重复的生成式对话。大量配音也可以由AI实时生成。AI NPC通过与玩家的互动以及对游戏环境的适应性变化，能够提供丰富的动态内容，甚至带来故事线的多样化发展与个性化任务，也可以通过模拟更加复杂的对手或合作伙伴行为来激励玩家探索新的游戏策略。

Sora推出后不到一个月，谷歌DeepMind推出了其游戏生成模型Genie，允许用户基于视频或图片生成可交互的2D世界。虽然Genie目前只能生成简单的2D平台游戏，但由于其具备对图像、视频所反映的对互动环境与世界规则的理解能力，因而DeepMind称其为“基础世界模型”。无独有偶，OpenAI也称Sora为“世界模拟器”。事实上，无论选择游戏还是视频，都是将技术的野心包装在产品的形态里。Deepmind通过对互动环境的学习，目的是“促进未来通用AI代理的训练”；OpenAI则将视频生成模型视为“建立物理世界的通用模拟器的一条有前途的道路”，从而“使计算机能够理解我们的世界”。如果说Sora所做的是在二维影像中拟合物理世界的规律，那么Genie之所以能够基于图像、视频生成动态交互的游戏，则是因为它识别了二维影像中事物的因果关系与规律。

辅助报道、智能分发

与事实核查：

AI对纪实内容生产

与消费的渗透

在纪实内容创作领域，由于对真实性的要求，生成式AI的应用受到一定限制，其进展不像创意内容领域中那样突飞猛进。以新闻业为例，虽然自动化写作、机器人新闻在财经与体育新闻领域已经有较为成熟的应用，但它们本质上还是利用传统人工智能进行结构化的数据处理，并未从根本上冲击新闻业的运作模式。但是基于生成式AI的“机器记者”却有可能从根本上改变新闻业的面貌。BBC前新闻实验室产品负责人大卫·卡斯维尔（David Caswell）预言，生成式AI将改变新闻的基本单位——文章，未来新闻不会再以“文章”的形式呈现，而是在生成式模型对网上的信息搅拌和重组下成为一种“语言汤”，用户按其所需从汤里“捞”取自己需要的信息，由AI代理把信息喂给用户。这意味着不同的人会根据自己的理解和情境接收到不同的新闻内容，同时也挑战了记者作为历史事件权威记录者的角色。

目前，专业新闻机构在利用生成式AI进行原创内容生产方面较为谨慎，更多的是利用AI辅助报道，而非完全由AI进行原创报道。路透社（Reuters）明确表示：在新一代AI工具达到我们的准确性与可靠性要求之前，我们不会发布由AI生成的新闻稿、视频、照片，也不会编辑由人工智能生成的新闻文本。英国《金融时报》副主编鲁拉·哈拉夫（Roula Khalaf）也表达了类似的观点：“……在新AI时代，《金融时报》的新闻将继续由在各自领域最优秀的人类记者撰写和报道。”

对于以新闻为代表的纪实内容生产，因为涉及真实性与行业价值观对齐等方面的问题，AI与人类协作或许是未来该领域发展的长期趋势。但在纪实内容的分发领域，生成式AI可以大展拳脚，并深刻改变信息消费的场景与方式。比如，未来用户或可借助Sora等视频生成模型，将新闻文本视频化，降低人们理解新闻内容的门槛。目前，新闻业对AI生成新闻摘要、虚拟数字人播报、AI新闻推荐等信息分发领域持有较为积极的态度。如何让用户既从严重过载的信息海洋中解脱出来，又不错过重要的新闻，AI推荐新闻是一项有益的尝试。“极简新闻”（News Minimalist）网站利用ChatGPT-4每天阅读1000篇左右的头条新闻，并基于新闻的规模、量级、潜力、新颖、即时、可行性、可信度按照0~10的等级对其进行排序。用户可以按评分由多至少来阅读最重要的新闻，超过7分的新闻则可以每天以邮件的形式自动发送给订阅者。

近年来，社交媒体中虚假信息和误导性信息的泛滥，使得公众对新闻的真实性产生了广泛质疑，转而在公共讨论中更多寻求情绪与立场上的抱团、站队。从2016年特朗普当选、英国脱欧到2020年新冠病毒起源地的谣言，后真相的舆论环境都已深刻介入现实政治的运作。生成式AI的出现更加剧了人们对批量生产深度伪造信息的担忧。但技术从来都是双刃剑，生成式AI同时也带来了应对虚假新闻的新机遇：用户可以根据自身需要来创建定制化GPT模型，针对信息核查进行特殊的训练，指定一些可靠的信源来对新闻信息进行交叉核验。这类定制模型已经可以在GPT Store找到（例如News Insight）。与专业的人工事实核查机构相比，基于AI的事实核查渠道，能够快速、及时、低成本地降低乃至截断虚假与误导信息对用户的影响。未来此类AI的发展，或许有利于缓解人类社会的后真相症候。

AI原生工作流：

内容平台的新范式

除了用AI替换传统内容生产流程的特定环节外，以生成式AI为底层基础设施的新内容生产与分发平台将带来更深刻的行业改变。Sora就具备这样的平台化潜能。以其目前具备视频的生成与编辑能力，如果加上分发模块，就可以构建一个统摄视频制作与分发全流程的视频内容平台，并且在分发与制作之间实现即时的反馈、互动。可以设想：借助ChatGPT生成剧本，Sora根据剧本生成相应的视频，音频生成模型进行角色配音、添加旁白以及相应的背景音乐等，一部AIGC电影或短剧就能快速诞生，并立即面向消费者进行分销。这样整合生成、编辑、分发的一站式AI内容平台很有可能成为内容行业的下一个风口。

在目前互联网的平台生态中，抖音/TikTok、YouTube分别是具有全球重要性的短视频和中长视频分发基础设施，用户负责内容生产，平台负责内容分发与变现，双方分工明确。平台除了制定游戏规则，一般不会深度介入用户的具体内容生产。而基于AI原生工作流的内容平台，则可以利用AI基础设施进一步接管内容生产的更多环节，并及时根据后续的内容分发与变现数据，向用户提供精准的反馈和建议，从而形成一个动态互动性更强的内容生态系统。这给内容行业带来了一幅完全不同以往的图景。AI原生内容平台所带来的生产力的平民化将深刻改变内容行业的生产与消费格局。当技术不断缩小创意与实现之间的鸿沟时，创作家与消费者之间的界限也将越来越模糊。

管辖权与容错率：

影响AI人力替代的关键因素

新技术所带来的生产力效应与对既有生产关系的挑战，几乎是如影随形的。生成式AI的出现也引发大量有关人力替代的担忧与讨论。美国知名演员、影视投资人泰勒·佩里在看到Sora模型生成的视频后暂停了8亿美元的影视工作室扩建计划，并担忧AI技术可能导致的广泛失业。对于这类问题，可以从两个角度来回应，一是特定领域职业管辖权的强度；二是公众对特定领域AI的容错率。

借用安德鲁·阿伯特的“职业管辖权”概念，职业管辖权的强度，决定了特定领域现有从业者抵御AI冲击的能力。强职业管辖权意味着从业者拥有较高的专业技能、较强的议价能力和较高的社会认可度，从而能够更好地适应AI时代的新环境。例如，在医学、法律、金融等领域，职业管辖权较强，从业者需要经过严格的专业训练和资格认证，才能获得执业资格。因此，即使AI在这些领域取得了相当进展，也难以完全取代人类从业者。另外，公众对这些领域的容错率也相对较低，因为事关公众健康、法律权益和财产利益。

具体到内容生产，创意内容领域有很多职业管辖权较弱的领域，如剪辑师、特效师、配乐师等工种，较容易被生成式AI取代；另一方面即便音乐、绘画、影视等领域的名角，由于其独特的专业禀赋，获得了较强的职业管辖权和市场议价能力，但由于公众对其工作领域的AI容错率较高，因此相关从业者还是有较大概率被AI取代。当然相应地，内容市场或许会为其独特禀赋，提供AI语境下新的变现方式，比如知名音乐家的声音、知名演员的外貌等，都可能会重新资产化。新闻、纪录片等纪实内容领域，从业者的职业管辖权并不算强，但由于公众对其工作领域AI的容错率较低，因此该领域从业者被AI替代的概率较低。

现阶段的AI还没有那么聪明，主要替代的是初入行业或准备进入行业的新手，对于那些已经在行业内占稳位置的、有丰富经验的插画师、写手、音乐家来说构不成太大威胁。但这并不意味着我们对AI可以降低警惕，因为“老手”都是由新手成长而来的。如果新手面对AI的替代难以进入市场，那么未来市场上也会缺乏老手，以及他们创造的有人味、有创造力的内容。在这一点上，AI所改变的将不仅是“谁在生产”，而是生产出来的内容本身。

本文原载《文化纵横》2024年第2期，原题为《人工智能作为内容生产的基础设施》。文章仅代表作者观点，供读者参考。