我和 AI 一起完成了这篇文章,主编说干得漂亮明天不用来了 | 近未来
大部分文艺工作者,比如写字的,画画的,作曲的,失业风险都在攀升——本文所有插图均由 AI 创作。但文字是我自己写的,如假包换。
最近 Open AI 的 Dall-E 2 创造的一系列精美画作,以及结合微软 Florence 和 OpenAI GPT-3 模型写出来的文本,都证明了 AI 有时候看着是比人强。
今年叫 AI 文艺创作元年也不过分,通过给定的文字或图像, AI 能产出超乎想象、大胆有趣又合情合理的作品,确实不乏「划时代」的意义。
Dall-E 2 制作的宇航员太空骑马图
这些进展建立在巨大的「基石模型」基础之上,令 AI 拥有了创造者不曾预见的能力。过去的人工智能模型,带着手工作坊式的「粗糙」。通过长期的调整,「基石模型」的潜在能力已经成为肉眼可见的发展趋势。
人工智能要进入工业大生产时代了。
5 月份出了 beta 版的 AI 绘图工具 Midjourney ,连杂志《经济学人》也忍不住「尝鲜」。Midjourney 为《经济学人》报道画的插图,看起来灵气十足,具有强烈的现代主义风格。
我让 Domo 画了 2008 年诺贝尔经济学奖得主保罗·克鲁格曼的一句话,“在市场经济下,你的支出就是我的收入”
基石模型的优点明显。一是参数大、训练数据量大,不仅不会边际效益递减,反而极大地提高了 AI 自身的能力和运算突破性。二是使用的小样本学习方法, AI 不用一遍遍「从头开始学」,可以碎片化选取自己需要的数据来自动执行。
基石模型就相当于「通用技术」。1990 年代,经济历史学家将「通用技术」比如蒸汽机、印刷机、电动机等,视为推动生产力长期发展的关键因素。
「通用技术」包含核心技术快速迭代、跨部门的广泛适用性和溢出效应等特征,从而刺激产品、服务和商业模式不断创新。
今天的基石模型,已然具备了同样的特点。
当下,超过 80% 的人工智能研究都集中在基石模型上。像特斯拉也在构建一个庞大的基石模型,为自动驾驶服务。
要理解斯坦福大学人工智能研究院院长李飞飞所说的「人工智能阶段性的变化」,就要知道基石模型和过去的人工智能模型有何不同。
如今所有的机器学习模型都立足于「神经网络」——模仿脑细胞相互作用方式的编程上。它们的参数描述了虚拟神经元之间连接的权重,模型通过反复试验权重,被「训练」到能够输出开发者想要得到的特定内容。
Dall-E 和Dall-E 2 的清晰度对比
特别到了 2010 年代,机器学习和矿机一样也用起了 GPU 。GPU 的特点是,有上千颗流处理器,可以进行大量且重复的一般运算,而且还不贵,比启动一次超级计算机便宜太多了。
突破出现在 2017 年。当时谷歌的 BERT 模型使用了新型架构,不再按「惯例」、依照顺序处理数据,而是采用了同时「查看」所有数据的机制。
Dall-E 2 在左图的基础上,添加了一只粉色橡皮鸭(毫无 PS 痕迹)
基石模型的繁荣,对芯片制造商肯定是好消息。积极参与制造基石模型的英伟达,已经是世界上最有价值的半导体设计商之一,市值为 4680 亿美元。
初创公司也有望借此大展身手。Birch AI 会自动记录与医疗保健相关的呼叫电话;Viable 会用它来筛选客户反馈;Fable Studio 用 AI 创作互动故事;在 Elicit 上,人们可以靠 AI 工具从学术论文中找到自己研究的问题。
大公司也有大公司的玩法。IBM 的相关负责人表示,基石模型可以分析海量的企业数据,甚至从车间传感器读数中找到消耗成本的蛛丝马迹。埃森哲公司人工智能项目的负责人预测「工业基石模型」即将兴起,为银行、汽车制造商等传统客户提供更加精准的分析服务。
虽然前景一片光明,AI 作画也激发了大众的热情,但不少研究者还是建议「后退一步」。有人认为,大模型依赖的大数据,并不是完全发挥了作用,一部分只是在「随机重复」;同时一些带有偏见的问题会引发模型的「幻觉」。
去年年初,GPT-3 在回答完形填空题「两个XXX(宗教人士)走进了……」时,有高于 60% 的概率填写「穆斯林」。
在「滴墨社区」刷「大画家 Domo 」的动态时,首页偶尔也会看到有用户给AI发出不雅指令,CEO 林泽浩告诉爱范儿记者,一般后台关键词筛选和人工筛选会同时进行,保证社区的健康运转。另外,大多数 AI 作画工具都结合的是 CLIP 和 Diffusion 两个模型。
Nekro 的二次创作
再见,彼得 2.0!世界上第一个真正的赛博格宣告死亡
iPhone 用上 USB-C 接口,丝毫不影响苹果赚钱
微信扫码关注该文公众号作者