“人类思考方式有缺陷”！Sora三位大佬最新访谈：Sora仍处在GPT-1阶段，但会超越人类智慧

公众号新闻

2024-04-29 05:04

“大模界”是每日经济新闻推出一档专注生成式AI与大模型技术的前沿科技报道栏目。

在这里，我们将聚焦生成式AI技术浪潮，展现从文字、图像、音频、视频的大模型如何编织数字化世界。

在这里，我们将解码、评测国内外各类大模型，探究它们如何成为变革各行各业的重要力量。

在这里，我们将关注AIGC行业发展，联手行业领军人物和顶尖专家，共同揭示最新产品创新和技术突破，前瞻未来发展趋势。

欢迎关注“大模界”，您将见证AIGC如何重塑内容生态，如何以前沿之力推动社会进步。让我们共同开启一场关于AI新纪元的无限旅程！

2月16日，OpenAI推出新的AI大模型Sora，该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。

一个月之后，第一波试用者对使用情况进行了反馈。

4月份，OpenAI官方账号发布的一支由Sora制作的MV（Music Video）——《Worldweight》，引发了不少网友们的围观。

目前，Sora已经成为视频大模型的标杆。有人说，在视频生成领域，只有两种模型：OpenAI Sora模型，以及其他不是Sora的模型。

然而，Sora何时才能开放给公众使用，OpenAI方面始终没有给出具体的时间表。

内测中的Sora表现优异，但OpenAI却迟迟没有正式对外开放Sora，这背后可能会有成本原因的考虑。知名科技作家Robert Scoble在社交平台X上就表示，普通用户仅仅每月支付20美元并不能涵盖生成人工智能视频的成本。

近日，NoPriors播客发布了对Sora项目团队三位负责人Tim Brooks、William Peebles(昵称Bill)和Aditya Ramesh的专访。

Tim Brooks是DALL-E 3的主要作者之一。他本科就读于卡内基梅隆大学，主修逻辑与计算，辅修计算机科学。去年1月，他顺利从加州大学伯克利分校获得博士学位后，立即加入OpenAI，参与了DALL-E 3和Sora的开发工作。

Bill本科就读于麻省理工学院，主修计算机科学。在校期间，他参与了GAN和text2video的研究，还在英伟达实习，专注于深度学习、自动驾驶和计算机视觉。去年5月，Bill从伯克利毕业后也加入了OpenAI。

Aditya Ramesh在OpenAI已经是个"老人"。作为DALL-E的创造者，他主导了三代DALL-E的研究工作。

在访谈中，这三位Sora负责人对外界关心的有关Sora的诸多方面问题给出了回答。

核心内容：

1，我们目前还没有制定产品的即时计划，甚至没有制定产品的时间表。

2，现阶段的Sora，就像是新视觉模型的GPT-1。

3，（关于伪造和安全）我认为这里要弄清楚的一个关键问题是，部署这项技术的公司承担多少责任？例如，社交媒体公司应该做多少工作来告知用户他们看到的内容可能不是来自可信来源？用户在使用这项技术创造某些东西时要承担多少责任？

4，这项技术有可能让许多有才华横溢、富有创造力的人创造出他们想要的东西。

5，在让这项技术更广泛地普及方面，有很多服务方面的考虑需要考虑。一个大问题是如何让这项技术足够便宜，让人们可以使用。

6，我们思考事物的方式是有一个缺陷，就是没有那么高的保真度。因此，我们对Sora的前景持乐观态度，认为它将取代人类的某些能力。从长远来看，我们相信Sora有朝一日将超越人类的智慧，成为世界模型的代表。

以下为访谈节选：

主持人：很好。或许我们可以从 OpenAI 的使命开始谈起，那就是实现 AGI，也就是更强大的人工智能。那么，文本转视频的技术是否符合这个使命呢？你们是如何开始研究这个领域的呢？

Bill：是的，我们坚信像 Sora 这样的模型确实是实现 AGI 的关键步骤。

展望未来，为了生成真正逼真的视频，你必须学习一些关于人们如何工作、如何与他人互动、最终如何思考的模型。这不仅包括人，还有动物，以及任何你想要模拟的物体。因此，展望未来，随着我们继续扩大像Sora 这样的模型，我们将能够构建这些类似世界模拟器的东西。随着我们未来扩大Sora的规模，AGI就会实现。

主持人：在更广泛地使用 Sora 之前，您需要做什么工作？Tim，你愿意谈谈这个问题吗？

Tim：是的，我们目前还没有制定产品的即时计划，甚至没有制定产品的时间表。然而，我们将Sora的访问权限提供给一小部分艺术家以及“红队成员”，以开始了解Sora将产生的影响。我们从艺术家那里得到了反馈，关于如何让它成为对他们最有用的工具，并从“红队成员”那里得到了反馈，关于如何让它安全，如何将它介绍给公众。

主持人：我知道，当它推出时，很多人都被一些图像所震撼。你会看到一只猫在水池中的影子或诸如此类的东西。但我只是好奇，随着越来越多的人开始使用它，你看到了什么。

Tim：是的，看到艺术家们用这个模型生成的成果，真的很棒。

作为一个喜欢创造内容但又没有足够技能的人，使用这个模型并激发出一堆想法，并得到一些非常引人注目的东西是非常容易的。比如，在迭代提示方面，实际生成它所花费的时间真的不到一个小时。我非常高兴地看到艺术家们也热衷于使用这些模型，并从中创作出精彩的作品。

主持人：这些模型在短片或其他领域的广泛应用的时间表是什么？我们何时会开始看到来自Sora或其他模型的实际内容，并成为更广泛媒体类型的一部分？

Tim：我没有确切的时间表预测，但我对此非常感兴趣，那就是除了传统电影之外，人们可能会将其用于什么。我认为，在接下来的几年里，我们会看到人们开始制作越来越多的电影，但我认为人们也会找到使用这些模型的全新方式，这些方式与我们习惯的当前媒体完全不同。

主持人：Aditya在OpenAI工作了大约五年，因此你见证了许多模型和公司的发展。当你考虑这个世界模拟模型的功能时，你认为它会成为模拟的物理引擎吗？我对未来可能出现的其他一些前瞻性应用非常好奇。

Aditya：是的，我完全认为在视频模型中进行模拟是我们将来能够做到的事情。

Bill：你可以从视频中学到很多东西。OpenAI等公司过去在这方面投入了大量资金，比如语言，比如手臂和关节如何在空间中移动的细节，它们是如何以物理上准确的方式与地面接触的。所以，你只需通过对原始视频的训练就能学到很多关于物理世界的知识，我们真的相信，这对于未来的物理体现等事情至关重要。

主持人：再谈谈模型本身。Tim，你能描述一下什么是扩散Transformer吗？

Tim：扩散是一种数据生成过程。这个过程从噪音开始，通过反复多次去除噪音，直到最终去除了足够多的噪音，只生成一个样本。这就是我们生成视频的过程。

从架构角度来看，我们的模型必须是可扩展的，它们需要能够从大量数据中学习，并理解视频中那些非常复杂且具有挑战性的关系，这一点至关重要。因此，我们采用了一种类似于GPT模型的架构，称为Transformer。因此，将这两个概念与Transformer架构结合起来的扩散Transformer使我们能够扩展这些模型。随着我们投入更多的计算和更多的数据来训练它们，它们的性能会越来越好。

主持人：Sora最引人注目的一点就是它的视觉美感。我对此感到好奇，你是如何调整或制作这种美感的？

Bill：实际上，我们并没有为Sora投入大量精力。我认为Sora的语言理解绝对允许用户以一种比其他模型更难的方式来操纵它。你可以提供很多提示和视觉提示，这些提示将引导模型朝着你想要的代数类型发展。

我认为展望未来，模型会赋予人们某种力量，让他们理解你的个人审美感，这将是很多人期待的事情。

我们接触的许多艺术家和创作者都希望将他们的全部资产上传到模型中，这样在写标题时就可以借鉴大量的作品，并让模型理解他们设计公司几十年来积累的术语等等。因此我认为个性化以及它如何与美学结合在一起将会成为以后值得探索的一件很酷的事情。

主持人：我认为Tim所说的就像超越传统娱乐的新应用。但这在计算上很昂贵，很难，而且不太可能。但我会讲述一个故事，并让神奇的视觉效果实时发生。我们会得到它吗？

Tim：我认为我们正朝着那个方向前进。还有不同的娱乐模式、不同的教育模式和交流模式。娱乐是其中很重要的一部分，但我认为一旦真正理解了我们的世界，就会有很多潜在的应用。我们的世界和我们体验世界的方式很大程度上都是视觉化的。这些模型真正酷的地方在于，它们开始更好地理解我们的世界、我们的生活和我们所做的事情。我们可以利用这些技术来娱乐自己，也可以用它们来教育我们。有时候，当我想学习一些东西时，最有效的方法就是找一个定制的教育视频来解释。同样，如果我想和某人交流一些观点，可能最好的方式就是制作一个视频来阐述我的观点。因此，我认为娱乐和视频模型可能有更广泛的潜在应用。

主持人：你们有尝试过将这些技术应用于数字化身份等方面吗？

Tim：到目前为止，我们并没有真正专注于其背后的核心技术。我认为现在Sora的发展进度就像是新视觉模型的GPT-1。所以，我们现在的重点只是这项技术的基础发展，可能比特定的下游应用更重要。

主持人：你们是如何看待视频模型中的安全性以及进行深度伪造或恶搞之类的事情？

Aditya：这绝对是一个相当复杂的话题。我认为很多安全缓解措施可能都可以从DALL-E 3中移植过来。

我认为这里要弄清楚的一个关键问题是，部署这项技术的公司承担多少责任？例如，社交媒体公司应该做多少工作来告知用户他们看到的内容可能不是来自可信来源？用户在使用这项技术创造某些东西时要承担多少责任？

主持人：我想向在座的各位提出一个问题，关于未来的产品路线图、你的发展方向或你接下来要开发的一些功能，你最兴奋的是什么？

Tim：确实，这是一个好问题。我对人们将如何利用我们的产品创造出新的东西感到非常兴奋。我认为有很多才华横溢、富有创造力的人都有自己想要创造的东西。但有时要做到这一点真的很困难，因为他们可能缺乏必要的资源、工具或其他东西。这项技术有可能让许多有才华横溢、富有创造力的人创造出他们想要的东西。我真的很期待他们将要制作出什么了不起的东西，以及这项技术将如何帮助他们。

主持人：Bill，我想问你一个问题，这是否像你刚才提到的GPT-1一样，我们还有很长的路要走。这不是普通大众有机会尝试的东西。你能描述一下你想要解决的局限性或差距吗？

Bill：是的，我认为，在让这项技术更广泛地普及方面，有很多服务方面的考虑需要考虑。一个大问题是如何让这项技术足够便宜，让人们可以使用。

为了让这项技术真正变得更加广泛地普及，我们需要确保安全性，特别是在选举年。我们对可能出现的错误信息和任何相关风险非常谨慎。我们今天正在积极努力解决这些问题。

主持人：你能谈谈你在Sora项目上的工作是如何影响更广泛的研究路线图的吗？

Tim：我认为，Sora的一个重要方面，是通过查看所有这些视觉数据来了解世界的知识。我们只是用视频数据对它进行了训练，它学会了3D，因为这些视频中存在3D。它还学会了当你咬一口汉堡包时，会留下咬痕。所以它学到了很多关于我们这个世界的东西。当我们与世界互动时，很多都是视觉的。我们一生中看到和学到的东西很多都是视觉信息。所以我们真的认为，对于智能，对于引导更智能的人工智能模型，更好地理解世界，这对它们来说非常重要，因为它们需要有这样的基础。有很多关于人们如何互动、事情如何发生、过去的事件如何影响未来的事件的内容，会催生比生成视频更广泛、更智能的人工智能模型。

主持人：这几乎就像你同时发明了未来的视觉皮层和大脑推理部分的某些部分。

Tim：是的，这是一个很酷的比较，因为人类拥有的很多智能实际上都与世界建模有关。当我们思考如何做事时，我们总是在脑海中演绎各种场景。我们会在梦中在脑海中演绎各种场景。所以我们有一个世界模型，将Sora构建为世界模型与人类拥有的大部分智能非常相似。

我认为我们思考事物的方式是，几乎就像人类的一个缺陷，就是它没有那么高的保真度。

因此，当你涉及到一组非常狭窄的物理学时，我们实际上无法做出非常准确的长期预测，这是我们可以通过其中一些系统进行改进的。

因此，我们对Sora的前景持乐观态度，认为它将取代人类的某些能力。从长远来看，我们相信Sora有朝一日将超越人类的智慧，成为世界模型的代表。

随着规模的扩大，真正有效的方法仍然只是预测数据。

主持人：你认为公众对视频模型或Sora有什么误解吗？或者你想让他们知道什么？

Aditya：在内部，我们一直在将Sora与GPT模型进行比较。当GPT-1和GPT-2问世时，人们开始越来越清楚地认识到，只需扩大这些模型的规模就能赋予它们惊人的能力。对我们来说，很明显，将同样的方法应用于视频模型也会带来非常惊人的能力。

我们确实觉得这是GPT-1的时刻，这些模型很快就会变得更好。我们真的很兴奋，我们认为这将给创意世界带来令人难以置信的好处，这对AGI的长期影响是什么。

与此同时，我们正在努力非常注意安全考虑，并构建一个强大的堆栈，以确保社会真正从中获益，同时减轻负面影响。

编辑|何小桃黄胜盖源源

校对|卢祥勇