AI补全600多年前传世名画,题诗一首,惊艳四座。中国古代水墨山水画的巅峰之笔《富春山居图》是元代画坛宗师、“元四家”之首黄公望晚年的杰作,这一传世名画于清代顺治年间遭火焚,断为长短两卷,后人再无从知晓缺失的原画。在今日举办的2022百度世界大会上,百度首席技术官王海峰展示了基于百度文心大模型“补全”的《富春山居图》。▲浙江博物馆馆藏《富春山居图·剩山图》局部(左上),台北故宫博物院馆藏《富春山居图·无用师卷》局部(右上),AI补全《富春山居图》并题诗(下图红框处)
▲AI补全《富春山居图》过程
黄公望纪念馆负责人毛传镔的评价是:“与现存真迹风格一致,使两岸画卷走出博物馆实现了合璧,光线风格统一,山水脉络和谐,不仅符合原画审美特点,视觉上还同样具有观赏价值。”文心大模型还为画作题诗一首,连撒贝宁都直呼“太凡尔赛了”。▲文心大模型为《富春山居图》题诗
用AI修复老照片、让画中人“活”起来……AI参与文物修复中的案例已经屡见不鲜,但此次用百度文心大模型“补全”富春山居图与以往不同——在其技术支撑下,每个人都可以参与其中。只要在百度APP搜索“富春山居图”,你就能参与到这一传世之作的“虚拟修复”中,仅需不到1秒,在中间空白处简单勾勒几笔,便能像专业画家般写意山川,补全你心中的《富春山居图》。▲撒贝宁现场体验“AI作画”
要“补全”一幅传世名画,有三大技术难点:高清晰度、高还原度、全民参与。以前许多将AI应用于历史画作的修复清晰度并不高,而只有实现高清尺寸的补全,做到逼真的细节,生成的画作才能具备更高的艺术观赏性。在只有一幅《富春山居图》样本的条件下,要高度还原黄公望这位“元四家”之首的大师作品,呈现出与原作相近的绘画风格,对模型的迁移学习能力则提出了极高要求。最后,要通过H5互动,让更多人参与到《富春山居图》的“虚拟修复”中,难点是同时满足所有人多样化的创作期望和天马行空的创意想法。▲每个人都可以借助AI补全自己心中的《富春山居图》
据百度技术人员介绍,文心大模型只用不到1秒钟,就能补全《富春山居图》这样一幅高清艺术画作,这大大提升了内容创作的效率。因为参数量大、建模能力强,文心大模型既能确保生成清晰度较高的画作,又能将大众不同的补全创意实时转化生成。文心大模型运用了“视觉生成大模型+单样本微调”的技术策略:先是学习大量的中国山水画,实现了从山水画“小白”向“大师”的进阶,等具备“大师”水平后,它再去学习黄公望的《富春山居图》,就能更快速地掌握这幅传世名作的精髓,从而让补全的画作与现存真迹风格一致。考虑到用户意图存在很强的主观性,要让用户的创作意图得以体现,需保证生成的画面结构与用户的笔触一致。对此,百度团队进行了大量调试,来确定画作中风格与用户笔触的对应关系,并且前期让更多的用户尽量都尝试修复,收集、照顾不同用户的绘制笔触的特点,从而做好修复效果与用户笔触引导结果之间的权衡;同时在部分尺度上引入随机性,来让生成结果拥有更多可能性,大模型也有强大的泛化能力来保证生成结果的稳定。像这样的人工智能自主生成内容(AIGC),是继UGC、PGC之后一种新的内容生产方式,它不仅能提升内容生产的效率,也会创造出有独特价值和独立视角的创意内容。
在百度世界大会上,百度创始人、董事长兼CEO李彦宏分享了AIGC将走过的三个发展阶段:第一阶段是“助手阶段”,AIGC辅助人类进行内容生产;第二阶段是“协作阶段”,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;第三阶段是“原创阶段”,AIGC将独立完成内容创作。在文心大模型的支持下,AI已具备很强的理解和生成能力,能实现创意作品的自动生成,包括AI作画、AI写歌、AI剪辑等。再往后发展,基于大模型的AIGC有望成为内容生产的主流模式。“未来十年,AIGC将颠覆现有内容生产模式,可以实现以1/10的成本,以百倍千倍的生产速度,去生成AI原创内容。”李彦宏说。
除了补全《富春山居图》外,百度AI数字人同样展示出强大的创作能力。担任今天百度世界大会的AI策划官、助理主持人和开场嘉宾的百度AI数字人希加加,也特别展示了一把创作技能。现场,主持人撒贝宁出了个难题:“画一张现代派、朦胧感、五彩缤纷的——猫。”百度AI数字人已在许多场景中展现AI绘画功底。比如近期,希加加发布并售卖和Qee熊、FE赛车合作的画作,另一位数字人度晓晓亦创作了“无界”系列画作并参加西安美院本科生毕业展。▲度晓晓携AI画作参加西安美院本科生毕业展
这些参展画作均有AI自动生成,每幅画的创作时间只需数十秒,效率远超人类。不过,AI作画只是其AIGC能力的一小部分,自动生成内容技术赋予了数字人强大的创造力。希加加会写诗、作曲、唱跳、实时直播,用多国语言交流;度晓晓挑战了高考语文作文,40秒就能写出40篇,随机抽取的一篇分数赶超了约75%的高考考生。像希加加、度晓晓这样有丰富技能傍身的数字人还有很多。据百度集团副总裁袁佛玉介绍,百度智能云打造了一个数字人平台“曦灵”,提供数字人的制作和运营服务,已形成了一个“AI数字人家族”。“随着百度AI算法的突破,我们能让数字人制作成本十倍、百倍地下降,还能让数字人生产周期,从动辄几个月,缩短到小时级别。”和AI复原《富春山居图》一样,这些百度数字人的AIGC能力也来自百度飞桨及文心大模型。例如,AI数字人对话能力,使用的是对话生成大模型-文心PLATO,PLATO拥有接近真人对话水平的;数字人画画能力,使用的是文心大模型-跨模态图文生成模型ERNIE-ViLG,它不仅支持自动生成油画、水彩画、中国画等多种风格的图像,还能实现“看图说话”的效果。▲文心ERNIE-ViLG图文双向生成统一建模框架
预训练大模型(简称“大模型”)是当前人工智能发展的重要方向,具有效果好、泛化能力强的特点,能显著降低AI开发和应用的门槛。谈及大模型的能力,李彦宏举例说,人的学习和记忆能力是有限的,《全唐诗》有接近5万首,通读都很难,背诵就更不容易了。但这对于大模型来说,根本就不是事儿。而百度基于产业级深度学习平台飞桨打造的知识增强大模型——百度文心大模型从大规模知识和海量数据中融合学习,学习效率更高、学习能力更强,还能跨语言、跨模态学习,一旦跨过某个奇点,就能产生真正意义上的AI原创内容。
“轻轻几笔连接山河”的背后,文心大模型已从技术创新迈进场景落地,为不同产业提供新思路。作为国内首个可交互虚拟偶像,度晓晓在百度App中为用户提供的全程AI陪聊功能,以及在聊天过程中表现出更高的“智商”和“情商”,也来自文心大模型的支持。这一方面意味着对话交互式搜索新时代的到来,另一方面也是大模型支持下AIGC能力逐渐成熟的体现。包括AIGC方向在内,文心大模型已经规模化应用于百度信息流、智能音箱等互联网产品,并落地到工业、能源、教育、金融、通信等行业的智能化转型升级中。例如在媒体行业,文心大模型的理解和生成创作能力激发创意,提升内容多样性,降低了制作成本;在保险领域应用中,文心大模型的智能解析能力,能使文本处理效率提升30倍;在医疗领域应用中,文心大模型将每份病历的检查时间,从30分钟缩短到了秒级。目前,百度文心已发布20多个大模型,既包含基础通用的大模型,也包含面向重点任务领域和行业的大模型,以及丰富的工具与平台,支撑企业与开发者进行高效便捷的应用开发。▲文心大模型全景图:由模型层、工具与平台层和大模型创意与探索社区构成
在拓宽场景覆盖广度之余,文心大模型也在加深产业应用的深度。面向业界,百度文心首发了两个行业大模型:联合国家电网发布能源电力大模型、联合浦发银行发布金融行业大模型,通过引入行业特色数据和知识,在电力、金融相关领域提升效果显著。今天的百度世界大会上,百度文心又推出一个关键领域的大模型——航天-百度·文心大模型。这是世界上第一个航天领域的大模型,从航天的场景、数据和知识中融合进行学习,可以对航天数据进行智能的采集、分析和理解,助力太空智能感知、规划和控制。近期,百度还推出文心大模型创意社区——文心·旸谷社区,希望可以让更多用户零距离感受文心大模型的魅力和应用创新潜力。据介绍,百度正在尝试通过大模型帮助提升素材和物料的生产效率、降低成本,探索文化创作、交互等场景的更多新玩法,更大限度地拓展艺术家及普罗大众的创作空间。
《富春山居图》的部分画卷已经毁于一场大火,我们无从知晓被烧毁的真迹样貌。人工智能也许并不能真正做到百分之百地还原残画,但它穿越时空,在古老文物与身处现代的我们之间搭起一座连接的桥。借助大模型等最新的AI技术,文物修复专家不再需要倾其毕生去掌握各个细分领域的技巧,便能提出更加多样的修复方案。专家经验与AI结合,将对书画文物修复工作大有裨益,不仅助力还原遗失的传统文化,也有助于推动基于中国文化艺术的数字内容创新。而让广大用户参与“虚拟修复”《富春山居图》之类的活动形式,或许能调动更多人的兴趣,去了解这幅传奇画作背后的奇闻逸事和它承载的厚重的历史,去引得更多人真切地祈愿,这两幅身处两地残卷能早日合二为一。当越来越多不擅长绘画的人用AI执笔,绘出眼中所观、心中所想,也许更多的奇思妙想将跃然纸上,艺术与生活的距离也将被进一步拉近。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)