关于懂美学的视觉大模型,我们问了美图 21 个问题
编辑 | 陈彩娴
2023年6月19日,美图影像节发布会,吴欣鸿身着灰色T恤搭配休闲长裤,一如既往的亲和、有活力,宣布美图将推出7款“AI时代的影像生产力工具”。
值得一提的是,美图此次发布的7款工具中,美图视觉大模型 MiracleVision(奇想智能)是国内首款能懂美学的大模型。
“过去,美图主要服务于生活场景的拍摄、修图、修视频、社交分享。在 AI 时代,除生活场景外,美图将提供更多生产力场景的服务。”
吴欣鸿话音刚落,现场掌声齐鸣。
如果说此前的美图在大众眼中是一个生活场景的公司,那么此次发布会预示着美图在生产力场景的战略意图表现得越来越明显。在美图发布会现场,共191次提到“AI”这个关键词,7款工具均主要针对专业场景,美图迈向生产力场景的步伐坚定有力,大众的期待也随之攀升。
6月19日当天,美图发布会冲上各大媒体平台热搜;股票市场上,美图尾盘拉升,股价涨超24%。
美与科技的碰撞,在大模型时代迎来新的高潮。
为什么说美图视觉大模型
审美,美图大模型做得更好?
2023年,AIGC迎来了行业混战。据不完全统计,国内现已有十余家AIGC企业,核心市场规模将达融资79.3亿元。
对于这个现状,有不少观点指出,热火朝天的概念下,如果大模型无法服务具体的商业场景,便是无法落地的“雨燕”,再完美的飞翔过程都没有意义,更不用说带来生产力的迭代和行业变革。而美图视角下的大模型,不仅要 MiracleVision 满足基础条件,更要让它注入美的基因,为行业带来一场美学革命。
这些能力,首先来自美图对于行业的高度理解。
十九大以来,国家陆续出台了“1+N”政策体系,为人工智能发展提供政策依据和制度保障。在清晰战略的引领下,美图发挥着公司的产品、技术、商业化优势,率先入局AI,以技术助力传播中国之美。
但尽管政策东风可以助美图一臂之力,行业发展至今的问题和难点仍十分明显。
在美图看来,人工智能如果想真正做到智能,就不仅仅需要模仿人的推理和逻辑能力,还要模仿人类的情感、感性、审美以及创造力。当前的人工智能,恰恰缺乏的是后者。
就审美而言,美是有属性、有细节的,不同场景下的用户对美有不同的渴望和需求。与人类相比,在美学领域,AI 的竞争力主要体现在感知得快、准、狠,能从众多优秀的大神作品中生产出融会贯通出来的成果,从这一角度,我们可以理解为 AI 其实是站在巨人肩膀上的一个「三好学生」。如果想要持续产出优秀作品,就需要有优秀的大神源源不断地补充作品,而这一点,恰恰是美图的优势所在。
吴欣鸿在发布会上称:“我们始终尊重美的形态各异。AI创作是否具有灵魂的还是一个未知数,但我们可以尽可能地让 AI 接近人类的审美。”
美图的美学认知源于创始之初。成立以来,美图的目标就是成为工具界的美学代表。如今,长期积累的美学认知融入了美图自研的视觉大模型 MiracleVision。
为了让这个学生对美学理解越深,美图还让有艺术家、设计师等具有深厚美学背景的专业人士,共同参与到视觉大模型的建设中,给这个学生提供极佳的美学学习环境,让其博采众长。这也是国内大模型赛道中少数将专业人士纳入研发阶段的团队。
此外美图还有一套基于机器学习的美学评估系统,当模型生成一个结果时,美图会自动打上美学分数,以一个老师的形态不断监督这个学生的进步。
在算法层面,MiracleVision运用零样本学习算法,利用类别的高维语义特征代替样本的低维特征,使得训练出来的模型具有迁移性。
这个算法模仿的是人类的推理思维,举个简单的例子:如果你告诉一个没有见过斑马的小孩关于斑马的特征,这个小孩在下一次、也就是TA第一次见到斑马时就能得出「这就是斑马」的结论。对 AI 模型来说,以往的算法需要给机器输入大量斑马的真实图像才能达到类似对效果,但 MiracleVision 却能通过零样本学习,在实际应用时无需微调就能刻画人物的特征,极大程度地提高设计效率。
值得一提的是,和市面上其他大模型先有技术再落地生根不同,美图视觉大模型MiracleVision从视觉创作场景反推技术演化。挖掘视觉创作中最适合与AI协作的场景,如绘画、设计、影视等,以场景反推技术如何演进。
任督二脉一通,美图视觉大模型Miracle Vision效果十分惊艳。
吴欣鸿表示,现阶段MiracleVision有三大核心效果优势:一是擅长亚洲人像摄影;二是将中国传统文化元素融入现代设计中,为创作赋予独特的东方韵味;三是商业设计领域的应用价值,设计师可以在MiracleVision的帮助下,快速地创作出具有创意和美感的作品。
吴欣鸿表示,结合美图现有的业务而言,以美图视觉大模型Miracle Vision为依托,美图云修在商业摄影行业应用十分广泛,美图设计室在电商的场景有对应的解决方案,WinkStudio在影视也有一些探索。
“未来我相信除了这些行业以外,会有更多的行业逐步用到视觉大模型的能力。国家也在推动‘数实融合’,而人工智能或者视觉大模型其实也是数字化的一个很重要的组成部分,在这样一个产业大背景下,整个行业未来最大的变革就是没有技术背景的公司都能轻松地用上视觉大模型带来的各种能力,这一天应该在三年内会逐渐到来。”
北京智源研究院访问首席科学家颜水成教授也表示,在接下来一到两年里面,一定能看到视觉大模型长足的发展。有可能美图会带来颠覆性的变化。
“在AI与影像生产力工具的紧密结合下,优质内容的创作门槛将不断降低,影像行业的生产效率也将不断提升。秉持着‘让科技与艺术美好交汇’的使命,美图公司将不断为用户带来更优质的产品与服务。”吴欣鸿如是说。
和其他视觉模型一样,美图 MiracleVision 也会遇到「图像处理参数量越大,对于算力资源要求越高」这一难题。在发布会现场,美图表示,在这方面,美图会与云厂商保持紧密合作,以此为依托,持续满足用户需求。
懂美学的大模型,美图是如何做到的?
美图创始人吴欣鸿是学画画出身,他早年执着于画艺的精进,对于艺术的追求曾一度是他创立美图的初衷。发布会现场,美图产品经理刘洛麒亦反复强调,对美与影像的热爱是整个团队的内在基因。
吴欣鸿其实很早就意识到了AI技术对于美的创造有着天然的优势。AI这盘大棋,他早有布局。
先手落于2010 年成立的美团MT Lab(美图影像研究院)。
据美图工作人员透露,MT Lab做的事情其实相当于一个高级翻译。
在计算机的世界里,无论是刘亦菲亦或是苏菲玛索,再沉鱼落雁的美女也只是一串0和1的代码,而Mtlab所做的便是便0和1加工为人类可以理解的信息,人脸识别可以分析面部皮肤状态,甚至给出对应意见。3D建模可以创造每一个用户专属的私人模型。这类似于一个高级翻译理解了对方的言语,甚至在翻译转述时加上了自己的润色。
MT Lab是美图AI技术的研发中枢,2017年,美图发布了AI测肤技术,通过一张手机自拍照全面了解皮肤状况。2019正式推出人像画质修复技术,通过便捷的一键操作就能实现老照片中低画质人像的高清还原。2021年推出基于StyleGAN的头发编辑方案,配对数据生成,让人们梦寐以求的生发成为现实。去年首届美图影像节上,美图发布了6款产品,经历一年持续迭代,多款产品成绩亮眼,如Wink月活跃用户数已突破千万,美图证件照成为在线证件照行业冠军。
而此次美图最新发布的7款影像生产力工具:WHEE、开拍、WinkStudio、美图设计室2.0、DreamAvatar数字人、RoboNeo、MiracleVision视觉大模型,均以AI为内核,覆盖视觉创作、商业摄影、专业视频编辑、商业设计等领域,旨在全面提升影像行业的生产力。
值得一提的是,美图影像节的7款产品发布后,美图正式形成由底层、中间层和应用层构建的AI产品生态。
底层MiracleVision为美图全系产品提供AI模型能力。
中间层由美图AI开放平台、美图创意平台、美图AI助手RoboNeo组合而成,分别负责开放共享AI技术、搭建创作者生态、聚合美图影像服务。
应用层则通过AI图片、AI视频、AI设计以及AI数字人等四大领域进行创新探索。
吴欣鸿常常对团队说,希望能让更多人享受到AI红利,一起用上AI时代的影像生产力工具,为行业降本增效。
这个愿景依托美图 MiracleVision的AI能力,也在逐渐变成现实。
在设计场景下,美图主要解决电商用户设计物料的痛点难点,以往因为不懂设计的原因,很多服装或电商企业每年在模特图拍摄上面需要花掉几十万甚至上百万。美图此次宣布其正在与华为云进行合作,联合研发“AI模特试衣”功能,能够帮助企业降低运营成本并提高成交转化。该功能将在7月份的华为开发者大会上进行展示。
而在视频场景中,美图视觉大模型MiracleVision更是轻车熟路。
美图敏锐地观察到,在这个视频创造不断更新迭代的时代,有一个全网视频者大概率都会碰到的场景—口播。简而言之,便是主播对着镜头说话,这就是口播场景。
而在这样一个很简单的场景中,却存在着三个主要痛点:无法短时间内输出脚本、拍摄过程中频频失误以及剪辑过于复杂,导致用户口播效率极低。美图视觉大模型MiracleVision加持的美图开拍能在前期的内容策划阶段,帮助用户用AI一键生成热门的口播脚本。在中期拍摄过程中,提词器会智能地跟随语速进行滚动,同时支持多台设备。至于后期剪辑,美拍所有功能都针对口播视频的工作进行了流程优化,提供了一套高质量高效率的解决方案。
有意思的是,美图此次发布的AI数字人生成工具DreamAvatar同样以视觉大模型MiracleVision为驱动力,在影视场景中也有相应探索——AI演员,极大限度地降低了影视特效所消耗的时间和人力成本。操作过程简而言之便是,用户一键上传视频后,AI会制定出视频里面的人物,把人体进行检测、跟踪、擦除,自动把真人替换成数字人;同时AI通过3D人体姿态估计还有驱动算法,让动作完美同步;AI还会并行通过相机姿态估计和跟踪、光照估计,让数字人更自然地融入环境;最后,将前面这一系列AI分处理汇总到3D渲染并输出,AI演员的影特效大片得以诞生。DreamAvatar生成的AI演员可以极大提高影视CG的制作效率,将原本以天为单位的制作周期,缩减到1小时内。
除了设计、视频以及影视之外,美图视觉大模型MiracleVision的优势场景还有不少,而这都要得益于美图此次发布会的顶层战略理念——即以从生活场景向生产力场景进化,构建美图AI产品生态,解决行业深层问题。
吴欣鸿表示,“AI对工具的价值,就好比电对于电器的价值,电的发现推动了工业革命,AI的发展则让我们进入到了智能时代。AI正成为推动工具效率变革的能源,屏幕上这些当下热门的AI产品,让过去需要花大量时间才能完成的工作,变得前所未有的简单。”
“我们希望,在这以后,用户想起美图。不再是一个简单的美颜软件。而是切切实实的智能工具。”
发布会现场,吴欣鸿壮志酬筹,面带笑意却目光坚定,似乎在告诉全世界,关于美图与人工智能的故事才刚刚开始。
在美图影像节活动现场,AI 科技评论及多家媒体亦与美图公司创始人、董事长兼首席执行官吴欣鸿展开了深入交流,对话摘录如下:
对话吴欣鸿:目标和能力做好匹配
1、AI科技评论:何为视觉大模型或者多模态大模型?
吴欣鸿:从企业经营者角度,我很确认美图今天做的这个视觉大模型一定是公司最核心的业务,未来能够为我们提供最重要的支撑。回想起我在15岁的时候,也就是1996年,我当时去中国美术学院准备考附中,后面又进入了中国美术学院的油画系去进修。那时候是我在视觉能力上的一个启蒙时期。我开始系统地去学习各种艺术的类别,去感知、认知艺术与图像。其实今天的视觉大模型和我当时作为一个15岁的学生时的状态可能是差不多的,如何看到眼前的世界,如何更好地理解这个世界,用大脑和双手去表达出来,呈现出一幅油画或者其他的一些艺术作品,这就是我所理解的当下的视觉大模型。
2、AI科技评论:视觉大模型会推动哪些行业的发展?
吴欣鸿:我们是一家擅长做工具、做应用、做整合的一家公司,在视觉大模型的应用上,我们前期会比较聚焦与我们业务最紧密的这些领域。我一直觉得战略就是目标和能力的匹配,所以目前我们的能力在这,目标也不敢定得太大,先把能力所及的事做好,再一步一步看能否延展到更多的应用场景、更多的行业。
3、AI科技评论:您对公司下一步视觉大模型的技术创新有什么样的要求和期待?
吴欣鸿:这个问题我想引入最近新发布的Apple Vision Pro这个设备来回答,如果我没有记错Vision Pro应该有多个摄像头,无论是往前、往眼睛,还是往下,人们可以看到各个视角下的物体。它其实是一种视觉感知能力的极大强化,我们可以实时去识别一切、分割一切,去做很多跟空间的交互,我们也能拍摄一些临场感很强的照片或者视频,这种感觉很难用3D或者其他形容词来形容它,那是一种近在眼前的体验,我想这些都会对未来视觉大模型的能力得到一些拓宽。刚才说到大模型的感知和认知需要不断提升,我想未来如果能借助这些新的设备进行创新,大模型应该会有很大的提升。
4、AI科技评论:美图和一些行业伙伴达成了合作,是不是意味着美图正在将AIGC能力分享给行业伙伴?具体有哪些领域?
吴欣鸿:我们很希望能够跟行业头部进行AI的共创,比如说我们跟FILA进行“AI潮鞋”挑战,事实上我们和FILA做的远不止一个活动,双方的团队进行多轮的深入的讨论、调试。我们很需要这些头部的合作伙伴的认知和帮助。我们认为这是快速提升美图视觉大模型以及团队能力的一种方式。
5、AI科技评论:视觉大模型上如何更新自己对美学的理解?
吴欣鸿:我们觉得靠美图自身,哪怕我们有自认为在美学上比较专业的团队,这也还是远远不够,所以我们才有了创作者的生态,我们让外部非常优秀的艺术家、设计师在我们的生态上去训练他们自己的模型。比如说我是插画艺术家,我会把自己过往的作品放在美图上面去训练,并且把它命名为我的专属模型,为美图的用户以及更多外部客户提供模型生成能力。美图得到了很多艺术家以及设计师的认可,因为美图帮助他们提升了收入以及粉丝量,他们也从中收获了很多对于美学的沉淀。我们是通过生态的方式来获得的成功,而不是自己闷头做的方式,因为闷头做再怎么做都是有局限的。
6、AI科技评论:如果满分是100分的话,吴总给目前的美图大模型会打多少分?
吴欣鸿:我自己的主观判断不一定对,我只给大模型打了60分,不知道会不会影响我们团队的心情,毕竟耗费这么长时间进行投入。虽然说在过去几个月这个模型进步还可以,但是离我们认为最理想的生成效果还是有比较大的差距,特别是在创造性上面。但起点越低,空间越大,我们还是觉得美图有很好的基础去把这个事情做好。我们是比较有韧劲、有耐心的团队,一个美图秀秀就是一个小的APP,但是我们花了15年的时间以及巨大的人力去打磨。所以我们会不会用15年,甚至更长的时间去打磨视觉大模型,这也还是个未知数。所以我们也很期待自己的表现,比如说半年后,回头来看今天,我们会给自己打多少分,这才是更值得关注的问题。
7、AI科技评论:大模型一旦开源,其他企业也会迅速拉平这些能力,大家能想到的应用场景也都有限,那么未来的美图大模型的竞争壁垒会在哪里?
吴欣鸿:首先美图做的是国内首发的懂美学的模型,美图在这方面积攒了非常多年,它比较具有主观性,在十几年的沉淀中,美图积攒的对美学趋势的探索,是我们非常重要的,而且是非常核心的竞争力。很多人都在做这种视觉模型,但是我们的模型会对人像的理解会更深,图像的质量也会更高清、更可控。
除了在美学上的积累,美图还有一个比较大的用户基数,我们现在是2.43亿的月活,这代表着美图可以很短的时间内验证产品性能,过程会比较的顺利。
此外,无论是视觉大模型还是在其之上的一个应用,都会面临一个获客的问题,获客成本太高,对于厂商来说是个很大的挑战。但这对于美图来说,根本不成问题,美图在这方面应该说算是得天独厚。另外大模型做出来以后谁买单?我们做出模型首先是我们自己买单,我们内部的结算就会通过API、SDK的调用,先让大模型的商业模式能够成立。同样,在应用上面,美图也已经把VIP订阅、单购这些模式跑通,所以未来我们会让围绕大模型的应用可以很快的商业化。对于所有厂商而言,造血是一个很重要的能力。另外,还有一个点在于,在美图平台上的这些创作者和开发者,美图能让他们实现变现从而获得分成,这对美图生态非常重要。
8、AI科技评论:图像参数量越大,需要计算资源越多,如何解决这个难点的呢?
吴欣鸿:参数量越大,需要的计算资源越多肯定是一个问题,我们通过生态的方式解决这个问题。比方说把模型能力提供给用户之后,用户一起来共创,他们也会获得一些商业上的收益,这个收益也会反哺模型的计算资源的补充和不足,所以说我们把它变成一个更灵活点借助生态的方式去把我们这个模型能力建设起来。
参考链接:
1.https://xueqiu.com/9374162244/246427787
更多内容,点击下方关注:
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
微信扫码关注该文公众号作者