我是这样看人工智能生成图像的
几个星期以前, OpenAI 公布了 Sora, 网上给出了美伦美奂的生成例子, 一时间, 互联网上齐声欢呼。
论坛里有些外行,比如伟哥, 认为万物皆可生成的时代已经到来了。
谷歌为了表示不落后, 马上公布自己的人工智能也能生成图像, 结果网上测试, 生成的马斯克是个黑人, 生成的教父是个黑人, 生成的所有人是黑人...
我的感觉, Sora网上只是显示了一种可能, 就是AI能理解人们的语言表述, 用自己的Video数据库里已有的Video碎片合成新的录像。 其实谷歌也是表示自己也能做同样的事。
区别是, Sora只是有例子, 并没开放让大家生成自己想要的Video
谷歌那个傻大个, 为了不落后, 直接让客户生成。
大家知道, 生成的录像, 不是天马行空地用模型造出来的, 而是用理解你的语言要求,把学习到的录像碎片组合到一起, 生成的录像。
那么, Sora生成的例子, 也许只要库里学习过东京街头的片段, 就可以生成很高质量的东京街头录像。 学习过某种鸟, 就可以生成同等质量的那种鸟的录像。 人们所显示的,其实是能理解你的要求。
如果让Sora只学习了王家卫的繁花, 让它生成上海90年代的黄河路, 那么大概率的生成的录像是王家卫的风格, 而不是聪明的一休的风格。
如果录像库里没有足够的你要求的录像, 那么就生成不出来。 好比谷歌的用的库都是用黑人的录像学习的, 生成才会出现黑人马斯克。 但是不能说明谷歌的理解语言, 生成录像的技术, 就一定比Sora差。也许只能说明, 它理解的马斯克, 它的知识范围里,在Video库里找到的最相近的, 是个黑人模型。如果学习用的照片是家坦的, 没准生成的人物里就会出现无主席,天仙。。
大家知道,文字信息到声音信息, 存储量差别是几何数量级的, 而声音到图形在到Video, 每一级的存储量差别都是几何级别的。
Chat GPT学习了多少亿语言模型, 才真正能生成语言。
那么Sora要搜索多少亿Video, 才能生成任意要求的录像。生成的质量,完全取决于谁所拥有的录像库更大, 谁的算力更高, 谁的存储空间能大。
人工智能生成录像, 还有很长路要走, Sora只是指明路是有可能可行的。
续:
加个有意思的链接
https://www.pingwest.com/a/234018
当然文章里有不少牛皮, 但是
文章里的余凯, 在德国时候, 住我的房子里住了2年, 我们没少交流对深度学习的看法。
文章里的这个照片, 黑板上画的, 正好是老京不干那行以后发展的状态, 所以老京一看就明白, 估计伟哥说不出个所以然。