人工智能索拉 (Sora)
OpenAI首席执行官奥特曼(Sam Altman)上周四(2月15日)在X上宣布了最新的生成人工智能产品索拉(Sora),立即引起了世界科技界的轰动。因为Sora可以通过文本提示生成长达一分钟的逼真视频。也就是说,只要我们输入一些文字提示/要求,Sora即可生成最长达一分钟、质量几可乱真的视频录像。在OpenAI网站上提供的样本中,一位青年亚裔女性在日本东京逛街视频。她身穿红色长裙和黑色皮夹克,鲜艳口红和白皙的脸庞上架着一副黑色太阳镜,缓慢优雅地走在暖色霓虹灯和各种闪烁的城市标志的街道上,妥妥一位都市时尚女士(下图1 OpenAI)。灯光和广告照射到潮湿的街道路面,仿如镜面反映。背景中不同方向前行的行人,真的极其逼真。这段人工生成的短视频的高光时刻在视频的后段,当镜头对准这位女士的面部时刻。但见这位女子面部的毛孔清晰可见,她脸上的雀斑和痘痘也历历在目(下图2 OpenAI)。真可谓远看花枝招展,近看只想躲闪。别介,咱逗你乐滴。客观地讲,这样的视频效果,质量令人叹为观止。
OpenAI说,Sora正在教授人工智能理解和模拟运动中的物理世界,目的是训练模型,帮助人们解决需要现实世界互动的问题。在保持视觉质量并遵守用户提示的同时,Sora能够生成具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。对于用户在提示中的要求,Sora不仅需要理解而且还了解这些东西在物理世界中是如何存在的。于是,就有了视频中令人信服的人物,表达充满活力的环境。Sora的出现,意味着一些视觉艺术家、设计师和电影/电视制作人和创意专业人员的工作(现在是广告),可以被机器,或曰人工智能所取代。它意味着生产率的飞跃提升 – 以极低的成本非常快地制作出几可乱真的广告视频。除那位时尚女士外,OpenAI还发布了用Sora模型生成的几段AI视频,包括“淘金热期间加利福尼亚州的历史镜头”等(下图 OpenAI)。它们的质量都非常逼真。当然,Sora并非无所不能。实际上,Sora作为一个开发中的模型存在着很多需要训练的地方。现在的Sora,即使有提示,仍难以描绘复杂场景的演进以及事物的因果关系。如当一个人咬吃一口苹果或饼干时,苹果或饼干形状会保持不变,既没失去被咬走的那一块,也无留下咬痕。即便如此,Sora的能力的确令人印象深刻,不失为实现通用人工智能AGI(artificial general intelligence)的一个重要里程碑。
在赞叹Sora所代表的人工智能技术给人类生活带来便利的同时,更多的人注意到伴随AI进步的负面作用。
对Sora的担忧
如前所述,现在最可能受到Sora影响的便是与电影/电视/视频广告有关的从业人员, 如视觉艺术家、设计师、电影/电视制作人、创意专业人员和演员。据说,2023年好莱坞演员的罢工,在一定程度上是出于对人工智能可能取代演员和作家的担忧。由于让任何人,甚至是那些没有艺术能力的人,都更容易创建视觉内容,Sora可以让用户开发并选择自己风格的媒体。也即像“网飞”这样的大公司,可以让最终用户根据提示开发自己的内容。我要是影视广告从业人员,也会有就业安全之虞。
不仅如此,Sora这款开创性的生成人工智能工具,可能会加速深度伪造视频的扩散,并对几乎所有行业产生影响。索拉将使恶意行为者更容易生成高质量的视频深度伪造,并使他们更灵活地创建可能用于攻击目的的视频。这将大大增加依赖视频认证安全措施的银行暴露的风险,银行消费者会有潜在威胁。有专家告诉ABC新闻,Sora还可能加剧互联网上的错误信息,加强政府宣传,模糊网络上真实和虚假内容之间本已混淆的界限。与此同时,人工智能生成的视频可能会强化从基础培训材料中提取的仇恨或偏见观点。西北大学研究人工智能的计算机科学教授哈蒙德(Kristian Hammond)告诉美国广播公司新闻:“我们认为录制的照片和视频所揭示的真相已经不复存在了。” 1月底,流行歌星斯威夫特(Talor Swift)的虚假的人工智能图片在社交媒体上疯传,获得了数百万次浏览(下图 YouTube)。上个月,一个模仿拜登总统声音的假机器语音阻止了个人在新罕布什尔州初选中投票。
此外,机器学习消耗大量能量。训练像GPT-3这样的大型语言模型,估计需要近1300兆瓦时(MWh)的电力,约相当于130个美国家庭每年消耗的电力。图像生成模型的数字明显更大,使用人工智能生成一张图像所需的能量几乎与为智能手机充满电所需的电量一样多。到2027年,人工智能部门每年可能消耗85至134太瓦(terawatt hours)时。这与荷兰的年度能源需求大致相同,占全球耗电量的0.5%。考虑到一家公司会持续抛出更大的模型和更多的数据,人们会相应地不断添加更多的计算资源,以使模型或硬件变得更有效率。这样周而复始地形成循环,使公司不断增购GPU芯片,用户要么租用公司算力,要么自己增添算力,一直就这么道高一尺,魔高一丈地耗下去,成本也会持续增加。
据估计ChatGPT需要大约20000个(GPU)单位来处理训练数据。然而,随着OpenAI商业部署ChatGPT和Generative Pre-Trained Transformer(GPT)模型的发布,所需GPU数量将超过30000个。英伟达的A100单元价格在10000美元到15000美元之间,OpenAI运行Sora的成本将至少翻倍。最终,这些成本将分摊到用户身上。还好,Sora尚未商业运营。否则,咱穷人是用不起滴。说句题外的话,这30000个以上的A100也就能生成1分钟的视频,生成45分钟的一节电视剧要花多少钱?更长的电影呢?更长的电视连续剧呢?显然,OpenAI甚至风投公司都难以满足如此天量的资金。难怪OpenAI首席执行官奥特曼四处化缘,筹措7万亿美元(7后面加12个0!)来建立/重塑芯片/AI产业。不过,人黄仁勋的英伟达(NVIDIA)可是高兴地呢(下图 NVIDIA)。
2月13日和14日,英伟达分别超过Meta和Alphabet,以1.8万亿美元的市值位居第三。英伟达正受益于人工智能竞赛,控制着约80%的高端人工智能芯片市场。该公司的交易收益约为预期收益的34倍,调整后的净利润飙升400%,达到113.8亿美元。英伟达也在构建自己的人工智能生态系统。2023年,它投资了14家人工智能公司,并通过其Inception人工智能计划跟踪8500多家人工智能初创公司。这些初创公司来自90个国家,已筹集了600多亿美元。对英伟达来说,人工智能初创公司是多多益善啊 – 它们都得买英伟达的GPU啊。
不过无论我们喜欢与否,人工智能的时代正在来临。
参考资料
Henshall, W. (2024). What to Know About OpenAI’s New AI Video Generator Sora. TIME. 链接 https://time.com/6695938/sora-openai-video-generator-ai/
OpenAI. (2024). Creating video from text. 链接 https://openai.com/sora
Vicent, J. (2024). How much electricity does AI consume? The Verge. 链接 https://www.theverge.com/24066646/ai-electricity-energy-watts-generative-consumption
Zahan, M. (2024). OpenAI video-generator Sora risks fueling propaganda and bias, experts say. abcNEWS. 链接 https://abcnews.go.com/Business/openai-video-generator-sora-risks-fueling-propaganda-bias/story?id=107289935 gh