OpenAI Sora负责人专访：20个问题深入研发细节，Sora仍是GPT-1时期

2024-04-28 10:04

Sora通过在神经网络中模拟复杂环境，弥合了当前AI与AGI之间的差距。

编译 | 一支笔

编辑 | 云鹏

智东西4月26日报道，AI生成视频不仅是图像生成器的升级，更是向AGI（通用人工智能）迈进的关键一步。在"No Priors"节目中，Sora团队负责人Aditya Ramesh、Tim Brooks和Bill Peebles与主持人一起讨论了OpenAI最近宣布的生成式视频模型——Sora。该模型能够根据文本提示生成真实、视觉连贯且高清的视频片段，最长可达一分钟。

访谈中，三位负责人探讨Sora的开发过程，并就其潜在应用，如教育、娱乐、数字化身份等阐述各自的观点。但目前团队的重点仍在于技术的基础开发，而不是特定的下游应用。Brooks表示，虽然包括数字化身在内的想法很有意义，但团队目前尚未探索这个问题。Brooks认为，Sora仍旧处于AI视频模型的GPT-1时代。

此外，Ramesh谈到，Sora的视觉美感引人注目，但其美学并未深深嵌入模型之中。在安全方面，Sora也面临着错误信息和攻击性文字生成等挑战。对此，他们将在确保模型为用户提供实际价值的同时，采取一切可能的安全措施，防止生成深度伪造内容和误导信息。同时，逐步开放技术，尊重用户自由表达的权利。

Peebles则讨论了如何使这项技术更广泛地普及，包括降低成本和处理可能出现的错误信息和相关风险。Peebles提到，作为数据网络（DN）的一部分，团队必须考虑安全因素，并积极采取措施应对相关风险。而这些，已经成为团队研究道路上的重要任务之一。

以下是Sora团队负责人专访中的20个问答，为方便阅读，部分问题及回答在尽可能不违背原意的前提下进行了处理：

1、从文本到视频，从AI到AGI的转换，你们是如何开始研究这个领域的呢？

Peebles：我们坚信像Sora这样的模型确实是实现AGI的关键步骤。我们认为一个很好的例子是一群人在东京的冬天穿行的场景，这是一个极其复杂的环境。在这种情况下，你可以想象一台摄像机飞过场景，许多人相互交流、说话、手牵手，以及附近的商贩。这个示例说明了Sora如何在神经网络权重范围内建模极其复杂的环境和世界。

要生成真正逼真的视频，必须学习人们的工作方式、互动方式以及最终的思考过程。这不仅包括人类，还包括动物和其他需要建模的物体。因此，随着我们继续扩大像Sora这样的模型，我相信我们将能构建类似世界模拟器的东西。

这意味着任何人都可以与其中的人物互动，我作为一个个体可以运行自己的模拟器，与模拟器中的人物进行交互。这种交互是通向AGI的路径之一。随着我们未来扩大Sora的规模，我们将会看见AGI的实现。

2、在更广泛地使用Sora之前，你需要进行哪些工作？

Brooks：我们真的希望能与OpenAI以外的人交流，并思考Sora将如何影响世界，以及它如何为人们提供帮助。目前，我们没有制定产品的即时计划，甚至没有定制产品明确的时间表。但我们正在采取行动，向一群小艺术家和红队成员提供对Sora的访问权限，开始探索它可能产生的影响。

我们收到了来自艺术家的反馈，了解到如何使Sora成为对他们最有用的工具。我们也收到了来自红队成员的反馈，帮助我们确保安全，并考虑如何向公众展示它。这些反馈将为我们未来的研究制定路线图，并指导我们是否最终推出该产品，以及具体的时间表。

3、你能分享一下你得到的反馈吗？

Ramesh：我们已经向一小部分艺术家和创作者开放了对Sora的访问权限，以获得早期反馈。我们认为最重要的是可控性。目前模型仅接受文本作为输入。尽管这一功能已经相当有用，但它仍然受限于需要精确描述你想要的内容。因此，我们正在考虑如何在未来扩展模型的功能，以便接受除文本之外的输入。

4、你们有没有看见艺术家或其他人用它制作的最喜欢的东西，或者最喜欢的视频，亦或你觉得鼓舞人心的事物？

Brooks：看到艺术家们如何运用这个模型真是太神奇了。我们对一些事情有自己的想法，但那些以制作创意内容为职业的人非常有创造力。例如，Shy Kids制作了一个非常酷的视频，他们制作了短篇故事Airhead，这个角色有一个气球，他们很喜欢这个故事。看到Sora能够解锁并让这个故事更容易讲述，简直太酷了。我认为这与Sora制作某个特定剪辑或视频无关，更多的是这些艺术家想要讲述并能够分享这个故事，而Sora可以帮助实现这一点。

Peebles：我个人最喜欢的样本是我们创作的Bling Zoo。在我们推出Sora那天，我在Twitter上发布了它。它本质上就是纽约动物园的多镜头场景，也是一家珠宝商店。你可以看到剑齿虎在这个闪闪发光的环境中仿佛成了装饰品，这非常地超现实。

我喜欢这些样本，因为作为一个喜欢创造内容但实际上没有创作技能的人，通过操作这个模型，我很容易就能产生一大堆想法，并最终得到一些很棒的作品。而且，实际生成所需的时间相比于通过迭代提示生成内容而言要少得多。

因此，对我来说，操作这个模型非常有趣，并从中获得想要的东西。我很高兴看到艺术家们也喜欢使用这个模型，并从中获得创造性的灵感。

5、我们何时能够看到Sora或其他模型产生的实际内容，这些内容由专业人士制作，并成为更广泛媒体类型的一部分？

Brooks：好问题。我对确切时间线没有预测，但我对此非常感兴趣，那就是除了传统电影之外，人们可能会将其用于什么。在未来几年里，我们或许会看到人们制作越来越多的电影，但我认为人们也会找到使用这些模型的全新方式，这些方式与我们习惯的当前媒体完全不同。当你告诉这些模型你希望看到什么，并且它们能够以一种非常不同的方式做出响应时，这就构成了一个非常不同的范式。

也许会出现一种全新的互动模式，类似真正富有创意的艺术家与内容互动的方式。所以，我对人们将要尝试的全新创意感到非常兴奋。这真的很有趣，因为与我们目前拥有的不同。

6、当你考虑这个世界模拟模型的功能时，你认为它会成为模拟的物理引擎吗？人们实际上正在模拟风洞？它是机器人技术的基础吗？

Peebles：我认为你说到点子上了。对于像机器人这样的应用，你可以从视频中学到很多你不一定能从其他模式中学到的东西，就像OpenAI等公司过去投入了大量资金在这方面，如语言，手臂和关节在空间中移动的方式等类似的细节。

回到东京的那个场景，你可以观察到腿是如何移动以及它们如何以物理上准确的方式与地面接触。因此，在训练中可以学到很多关于物理世界的知识。我们认为原始视频对于诸如物理体现之类的事情的发展至关重要。

7、你能为广大技术受众解释一下什么是扩散Transformer吗？

Brooks：Sora建立OpenAI的DALL-E模型和GPT模型的研究之上。扩散是一种数据生成过程，以我们的案例为例，即视频生成。这个过程从噪音开始，通过反复多次去除噪音，直到最终去除了足够多的噪音，只生成一个样本。这就是我们生成视频的过程。我们从一段有噪音的视频开始，逐步去除噪音。

从架构角度来看，我们的模型必须是可扩展的，它们需要能够从大量数据中学习，并理解视频中那些非常复杂且具有挑战性的关系，这一点至关重要。因此，我们采用了一种类似于GPT模型的架构，称为Transformer。我们甚至发布了一份关于Sora的技术报告，展示了在使用较少、中等和更多的计算量时，从同一提示中获得的结果。

我们认为，随着我们不断增加计算资源和数据，我们将不断改进这些模型，使它们能够胜任更多的任务，如更好的模拟和更长期的生成。

8、你可以给我们解释一下这种模型的缩放定律是什么吗？

Peebles：这是一个很好的问题。正如Tim所提到的，使用Transformer的一个优点是，可以继承我们在其他领域，例如语言中看到的所有优秀特性。因此，你可以开始提出视频而不是语言的缩放法则。

这是我们团队正在积极研究的事情，我们不仅在构建模型，还使其变得更好。这意味着，我可以通过使用相同的训练计算量，在不从根本上增加所需计算量的情况下，获得更好的结果。这些是我们研究团队每天都在解决的问题之一，以推动Sora和未来模型的发展。

9、在这个领域应用Transformer的问题之一就是标记化。还有，这个名字是谁想出来的呢？但像时空补丁那样科幻的名字真的很棒，你能解释一下它是什么以及为什么它与此相关吗？

Brooks：我不认为我们创造了这个名字，它更像是一个描述性的术语。LLM范式的关键成功之一就是token的概念。当你浏览互联网时，你会发现各种各样的文本数据，包括书籍、代码、数学等。语言模型的妙处在于它们有token这一单一概念，使得它们能够在如此广泛的数据上进行训练。然而，在过去，视觉生成模型缺乏类似的概念。因此，在Sora之前，你会在256×256分辨率的图像或256×256的视频上训练图像生成模型或视频生成模型，而这些视频正好四秒长。

因此，在Sora中，我们引入了“时空补丁”的概念。你可以把它想象成数据的表示方式，存在于图像和长视频中，就像一个高度堆叠的垂直视频，你可以从中提取立方体。因此，Sora不仅可以生成720P分辨率的视频，还可以生成垂直视频、宽屏视频，甚至可以生成图像。这使得Sora成为第一个具有广度的视觉内容生成模型，就像语言模型具有广度一样。这就是我们朝着这个方向迈进的真正原因。

8、如何将端到端深度学习应用于视频？

Brooks：在Sora之前，许多处理视频的模型实际上都在考虑扩展图像生成模型，并在图像生成方面取得了很多进展。许多人一直在尝试使用图像生成器并对其进行一些扩展，以便制作一些持续时间较长的视频，而不仅仅是一张静态图像。

但对于Sora来说，真正重要的是架构的差异。我们并不是从图像生成器开始，然后尝试将其扩展为视频生成器。相反，我们从一个更宏观的问题出发：如何制作一分钟的高清视频剪辑。这就是我们的目标。当我们设定了这个目标时，我们意识到我们不能仅仅依赖于扩展图像生成器。

为了制作高清素材，我们需要可扩展的东西，将数据分解成非常简单的方式，以便我们可以使用可扩展的模型。所以我认为这确实是从图像生成器到Sora的架构演变。这是一个非常有趣的框架，因为我们相信它不仅可以应用于视频生成领域，还可以应用于其他许多领域。

当然，在最短的时间内，我们并不是第一个推出视频生成器的人。很多人在视频生成方面取得了令人印象深刻的进展。但是，我们更希望朝着更远的未来目标努力。我们宁愿选择未来的一个点，然后花一年时间研究它。而且，我们有快速做事的压力，因为AI发展太快了。

11、Sora引人注目的一个方面就是其视觉效果和美学。你能说说如何调整或打造Sora的美学吗？

Ramesh：对于Sora，我们并没有过多花费精力在美学上，世界本身就很美，但或许是一个很好的答案。实际上，Sora的语言理解允许用户以一种更加直接的方式来引导它，这是其他模型很难做到的。用户可以提供各种提示和视觉线索，以指导模型生成他们想要的内容类型。这种交互性使得用户能够更加灵活地与模型进行沟通，从而获得更加符合其预期的生成结果。

我认为，未来的模型将会理解个人审美。我们接触的许多艺术家和创作者都希望将他们的全部资产上传到模型中，这样在写标题时就可以借鉴大量的作品，并让模型理解他们设计公司几十年来积累的术语等。因此，我认为个性化以及如何将它与美学结合在一起，将成为一件值得探索的很酷的事情。

12、我们能否得到一种与我们现在非常不同的娱乐范式？

Brooks：我觉得视频模型的发展将引领着全新的娱乐、教育和沟通方式。娱乐是其中重要组成部分，但更深层次地，这些模型有望让我们更深入地了解世界和我们的生活，以及如何通过视觉体验它们。它们不仅可以为我们提供娱乐，还可以成为教育的有力工具。

有时候，定制的教育视频可以是学习新事物的最佳途径，而制作视频来解释观点可能是与他人沟通的最有效方式。因此，我认为视频模型存在更广泛的潜在应用。

13、你们有尝试过将这些技术应用于数字化身份等方面吗？这是否会不太适用？因为它更像是文本到视频的提示。

Brooks：到目前为止，我们的重点主要是在Sora的核心技术上，而不是在具体的应用方面。虽然包括数字化身在内的想法很有意义，但我们还没有探索这个问题。我认为尝试这些想法会很酷，但我认为我们现在在 Sora的轨迹中的位置，就像是这种新视觉模型范式的GPT-1。

14、你们是如何看待视频模型引发有关安全性的问题，以及如何防止伪造、恶搞或其他类似问题？

Ramesh：这是一个非常复杂的问题。我认为我们可以从DALL-E3中学到很多相关措施，比如我们处理的色情或血腥图像的方式。但肯定会出现新的安全问题，比如错误信息，或者是否允许用户生成具有攻击性的内容。

一个关键问题是，部署这项技术的公司应该承担多少责任？例如，公司是否应该通知用户，他们看到的内容可能不是来自可信来源？还有多少责任应该由用户承担？这是一个棘手的问题，我们需要认真思考这些问题，以找到最好的解决方案。

15、过去，人们使用Photoshop处理图像并发布，提出索赔。人们并没有说，Photoshop的制造商要为滥用该技术的人负责，你如何看待这些先例？

Ramesh：这很重要。我们希望人们能够自由地表达自己，做他们想做的事情，但同时也需要负责任。逐步释放技术，并逐步引导人们适应它，这是一个明智的方法。这样可以确保技术的使用是负责任的，同时也尊重了用户的自由表达权。

16、能介绍一下你们下一步或正在开发一些功能吗？

Brooks：我对人们将如何利用我们的产品创造出新的东西感到非常兴奋。我认为有很多才华横溢、富有创造力的人都有自己想要创造的东西。但有时要做到这一点真的很困难，因为他们可能缺乏必要的资源、工具或其他东西。这项技术有可能让许多才华横溢、富有创造力的人创造出他们想要的东西。我真的很期待他们将要制作出什么了不起的东西，以及这项技术将如何帮助他们。

17、除了长度等显而易见的问题之外，你能描述一下你们想要解决的局限性是什么吗？

Peebles：为了使这项技术更加普及，我们需要考虑多个因素。其中一个重要的因素是降低成本，以便更多人能够承担。我们都知道，在视频生成领域，确切的参数设置对结果影响很大。你知道你正在创建的视频的分辨率和持续时间，但是你也知道生成过程不是即时的，需要等待几分钟，尤其是对于较长的视频。

因此，我们积极努力降低线程成本，以实现更广泛的普及。作为数据网络（DN）的一部分，我们也必须考虑安全因素，特别是在选举年。我们非常谨慎地处理潜在的错误信息，并积极采取措施来应对周围的风险。今天，解决这些问题已成为我们研究道路上的重要任务之一。

18、对于Sora未来的研究方向，你有什么想说的？

Brooks：我们希望，Sora能够通过分析所有视觉数据，实现对世界有更深入的理解，甚至能够理解3D。这是非常令人兴奋的，因为我们并没有直接将3D信息输入其中，而是让它通过观察视频数据自行学习。它能够理解在视频中存在的3D结构，比如，它知道了当你咬下一口汉堡时，会留下咬痕。

因此，它对我们的世界有了更深入的了解。当我们与世界互动时，大部分信息都是视觉的，我们所学习的也是视觉信息。因此，我们确实相信，引领AI模型变得更智能、更优秀，让它们像我们一样理解世界是非常重要的。我们的世界充满了复杂性，有很多关于人们如何互动、事情如何发生、过去的事件如何影响未来的事件的内容，这实际上会导致比生成视频更广泛的更智能的AI模型。

人类的许多智慧实际上与我们对世界的建模有关。每当我们考虑如何行动时，我们都会在脑海中构想场景，凭借着想象力演绎各种可能情景。在实际行动之前，我们会思考：“如果我这样做，会发生什么？如果我那样做，会有什么后果？”所以我们有一个世界模型，将Sora构建为世界模型，与人类拥有的大部分智能非常相似。

19、我们是如何让Sora拥有与人类非常相似的世界模型，而不是像物理引擎那样完全精确的东西呢？

Peebles：我们知道，人类的认知并不总是十分准确，所以我们无法做到完全精确。当我们深入研究一组非常狭窄的物理规律，并进行长期预测时，我们可以通过一些系统来改进我们的理解。

因此，我们对Sora的前景持乐观态度，认为它能够在某一天取代这种能力。从长远来看，我们希望它能够比人类更好地扮演世界模型的角色。但是，我们也必须认识到，对于其他类型的智能来说，这种能力并不总是必需的。尽管如此，对于Sora和其他模型来说，未来仍然会有改进的空间。

20、你认为公众对视频模型有什么误解吗？

Ramesh：对于公众来说，Sora的发布可能是最大的更新。正如Bill和Tim所说，在内部，我们一直在将Sora与GPT模型进行比较。当GPT-1和GPT-2问世时，人们开始越来越清楚地认识到，只需扩大这些模型的规模就能赋予它们惊人的能力。

目前还不清楚，扩大下一个标记预测的规模是否会产生一个有助于编写代码的语言模型。对我们来说，很明显，将同样的方法应用于视频模型也会带来非常惊人的能力。我认为Sora 1的发布证明了这一点，现在我们站在了缩放曲线上的一个关键点。我们对此感到非常兴奋。

Peebles：正如Tim和Aditya所暗示的那样，我们确实觉得视频模型正处于GPT-1的时刻，但这些模型很快就会变得更好。我们对此感到非常兴奋，因为我们相信，这将为创意世界带来难以置信的好处。

虽然实现AGI还需要时间，但我们正在努力确保安全问题得到充分考虑，并建立一个强大的技术基础，以确保社会真正从中受益，同时减轻潜在的负面影响。尽管我们面临挑战，但现在确实是一个令人振奋的时刻，我们迫切地想要知道未来模型能够实现什么。

来源：No Priors

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章