Redian新闻
>
关于懂美学的视觉大模型,我们问了美图 21 个问题

关于懂美学的视觉大模型,我们问了美图 21 个问题

科技

一场大模型界的「美学革命」。
作者 | 郭思

编辑 | 陈彩娴

2023年6月19日,美图影像节发布会,吴欣鸿身着灰色T恤搭配休闲长裤,一如既往的亲和、有活力,宣布美图将推出7款“AI时代的影像生产力工具”。

值得一提的是,美图此次发布的7款工具中,美图视觉大模型 MiracleVision(奇想智能)是国内首款能懂美学的大模型。

“过去,美图主要服务于生活场景的拍摄、修图、修视频、社交分享。在 AI 时代,除生活场景外,美图将提供更多生产力场景的服务。”

吴欣鸿话音刚落,现场掌声齐鸣。

如果说此前的美图在大众眼中是一个生活场景的公司,那么此次发布会预示着美图在生产力场景的战略意图表现得越来越明显。在美图发布会现场,共191次提到“AI”这个关键词,7款工具均主要针对专业场景,美图迈向生产力场景的步伐坚定有力,大众的期待也随之攀升。

6月19日当天,美图发布会冲上各大媒体平台热搜;股票市场上,美图尾盘拉升,股价涨超24%。

美与科技的碰撞,在大模型时代迎来新的高潮。



1

为什么说美图视觉大模型

打通了任督二脉?
  • 审美,美图大模型做得更好?

2023年,AIGC迎来了行业混战。据不完全统计,国内现已有十余家AIGC企业,核心市场规模将达融资79.3亿元。

对于这个现状,有不少观点指出,热火朝天的概念下,如果大模型无法服务具体的商业场景,便是无法落地的“雨燕”,再完美的飞翔过程都没有意义,更不用说带来生产力的迭代和行业变革。而美图视角下的大模型,不仅要 MiracleVision 满足基础条件,更要让它注入美的基因,为行业带来一场美学革命。

这些能力,首先来自美图对于行业的高度理解。

十九大以来,国家陆续出台了“1+N”政策体系,为人工智能发展提供政策依据和制度保障。在清晰战略的引领下,美图发挥着公司的产品、技术、商业化优势,率先入局AI,以技术助力传播中国之美。

但尽管政策东风可以助美图一臂之力,行业发展至今的问题和难点仍十分明显。

在美图看来,人工智能如果想真正做到智能,就不仅仅需要模仿人的推理和逻辑能力,还要模仿人类的情感、感性、审美以及创造力。当前的人工智能,恰恰缺乏的是后者。

就审美而言,美是有属性、有细节的,不同场景下的用户对美有不同的渴望和需求。与人类相比,在美学领域,AI 的竞争力主要体现在感知得快、准、狠,能从众多优秀的大神作品中生产出融会贯通出来的成果,从这一角度,我们可以理解为 AI 其实是站在巨人肩膀上的一个「三好学生」。如果想要持续产出优秀作品,就需要有优秀的大神源源不断地补充作品,而这一点,恰恰是美图的优势所在。

吴欣鸿在发布会上称:“我们始终尊重美的形态各异。AI创作是否具有灵魂的还是一个未知数,但我们可以尽可能地让 AI 接近人类的审美。”

美图的美学认知源于创始之初。成立以来,美图的目标就是成为工具界的美学代表。如今,长期积累的美学认知融入了美图自研的视觉大模型 MiracleVision。

为了让这个学生对美学理解越深,美图还让有艺术家、设计师等具有深厚美学背景的专业人士,共同参与到视觉大模型的建设中,给这个学生提供极佳的美学学习环境,让其博采众长。这也是国内大模型赛道中少数将专业人士纳入研发阶段的团队。

此外美图还有一套基于机器学习的美学评估系统,当模型生成一个结果时,美图会自动打上美学分数,以一个老师的形态不断监督这个学生的进步。

在算法层面,MiracleVision运用零样本学习算法,利用类别的高维语义特征代替样本的低维特征,使得训练出来的模型具有迁移性。


这个算法模仿的是人类的推理思维,举个简单的例子:如果你告诉一个没有见过斑马的小孩关于斑马的特征,这个小孩在下一次、也就是TA第一次见到斑马时就能得出「这就是斑马」的结论。对 AI 模型来说,以往的算法需要给机器输入大量斑马的真实图像才能达到类似对效果,但 MiracleVision 却能通过零样本学习,在实际应用时无需微调就能刻画人物的特征,极大程度地提高设计效率。

图注:美图AI生成的艺术画效果

值得一提的是,和市面上其他大模型先有技术再落地生根不同,美图视觉大模型MiracleVision从视觉创作场景反推技术演化。挖掘视觉创作中最适合与AI协作的场景,如绘画、设计、影视等,以场景反推技术如何演进。

任督二脉一通,美图视觉大模型Miracle Vision效果十分惊艳。

吴欣鸿表示,现阶段MiracleVision有三大核心效果优势:一是擅长亚洲人像摄影;二是将中国传统文化元素融入现代设计中,为创作赋予独特的东方韵味;三是商业设计领域的应用价值,设计师可以在MiracleVision的帮助下,快速地创作出具有创意和美感的作品。

吴欣鸿表示,结合美图现有的业务而言,以美图视觉大模型Miracle Vision为依托,美图云修在商业摄影行业应用十分广泛,美图设计室在电商的场景有对应的解决方案,WinkStudio在影视也有一些探索。

“未来我相信除了这些行业以外,会有更多的行业逐步用到视觉大模型的能力。国家也在推动‘数实融合’,而人工智能或者视觉大模型其实也是数字化的一个很重要的组成部分,在这样一个产业大背景下,整个行业未来最大的变革就是没有技术背景的公司都能轻松地用上视觉大模型带来的各种能力,这一天应该在三年内会逐渐到来。”

北京智源研究院访问首席科学家颜水成教授也表示,在接下来一到两年里面,一定能看到视觉大模型长足的发展。有可能美图会带来颠覆性的变化。

“在AI与影像生产力工具的紧密结合下,优质内容的创作门槛将不断降低,影像行业的生产效率也将不断提升。秉持着‘让科技与艺术美好交汇’的使命,美图公司将不断为用户带来更优质的产品与服务。”吴欣鸿如是说。

和其他视觉模型一样,美图 MiracleVision 也会遇到「图像处理参数量越大,对于算力资源要求越高」这一难题。在发布会现场,美图表示,在这方面,美图会与云厂商保持紧密合作,以此为依托,持续满足用户需求。



2

大模型背后的“硬核”技术
  • 懂美学的大模型,美图是如何做到的?

美图创始人吴欣鸿是学画画出身,他早年执着于画艺的精进,对于艺术的追求曾一度是他创立美图的初衷。发布会现场,美图产品经理刘洛麒亦反复强调,对美与影像的热爱是整个团队的内在基因。

吴欣鸿其实很早就意识到了AI技术对于美的创造有着天然的优势。AI这盘大棋,他早有布局。

先手落于2010 年成立的美团MT Lab(美图影像研究院)。

据美图工作人员透露,MT Lab做的事情其实相当于一个高级翻译。

在计算机的世界里,无论是刘亦菲亦或是苏菲玛索,再沉鱼落雁的美女也只是一串0和1的代码,而Mtlab所做的便是便0和1加工为人类可以理解的信息,人脸识别可以分析面部皮肤状态,甚至给出对应意见。3D建模可以创造每一个用户专属的私人模型。这类似于一个高级翻译理解了对方的言语,甚至在翻译转述时加上了自己的润色。

MT Lab是美图AI技术的研发中枢,2017年,美图发布了AI测肤技术,通过一张手机自拍照全面了解皮肤状况。2019正式推出人像画质修复技术,通过便捷的一键操作就能实现老照片中低画质人像的高清还原。2021年推出基于StyleGAN的头发编辑方案,配对数据生成,让人们梦寐以求的生发成为现实。去年首届美图影像节上,美图发布了6款产品,经历一年持续迭代,多款产品成绩亮眼,如Wink月活跃用户数已突破千万,美图证件照成为在线证件照行业冠军。

而此次美图最新发布的7款影像生产力工具:WHEE、开拍、WinkStudio、美图设计室2.0、DreamAvatar数字人、RoboNeo、MiracleVision视觉大模型,均以AI为内核,覆盖视觉创作、商业摄影、专业视频编辑、商业设计等领域,旨在全面提升影像行业的生产力。

值得一提的是,美图影像节的7款产品发布后,美图正式形成由底层、中间层和应用层构建的AI产品生态。

底层MiracleVision为美图全系产品提供AI模型能力。

中间层由美图AI开放平台、美图创意平台、美图AI助手RoboNeo组合而成,分别负责开放共享AI技术、搭建创作者生态、聚合美图影像服务。

应用层则通过AI图片、AI视频、AI设计以及AI数字人等四大领域进行创新探索。



3

行业巨震,这些变革正悄然发生

吴欣鸿常常对团队说,希望能让更多人享受到AI红利,一起用上AI时代的影像生产力工具,为行业降本增效。

这个愿景依托美图 MiracleVision的AI能力,也在逐渐变成现实。

在设计场景下,美图主要解决电商用户设计物料的痛点难点,以往因为不懂设计的原因,很多服装或电商企业每年在模特图拍摄上面需要花掉几十万甚至上百万。美图此次宣布其正在与华为云进行合作,联合研发“AI模特试衣”功能,能够帮助企业降低运营成本并提高成交转化。该功能将在7月份的华为开发者大会上进行展示。

而在视频场景中,美图视觉大模型MiracleVision更是轻车熟路。

美图敏锐地观察到,在这个视频创造不断更新迭代的时代,有一个全网视频者大概率都会碰到的场景—口播。简而言之,便是主播对着镜头说话,这就是口播场景。

而在这样一个很简单的场景中,却存在着三个主要痛点:无法短时间内输出脚本、拍摄过程中频频失误以及剪辑过于复杂,导致用户口播效率极低。美图视觉大模型MiracleVision加持的美图开拍能在前期的内容策划阶段,帮助用户用AI一键生成热门的口播脚本。在中期拍摄过程中,提词器会智能地跟随语速进行滚动,同时支持多台设备。至于后期剪辑,美拍所有功能都针对口播视频的工作进行了流程优化,提供了一套高质量高效率的解决方案。

有意思的是,美图此次发布的AI数字人生成工具DreamAvatar同样以视觉大模型MiracleVision为驱动力,在影视场景中也有相应探索——AI演员,极大限度地降低了影视特效所消耗的时间和人力成本。操作过程简而言之便是,用户一键上传视频后,AI会制定出视频里面的人物,把人体进行检测、跟踪、擦除,自动把真人替换成数字人;同时AI通过3D人体姿态估计还有驱动算法,让动作完美同步;AI还会并行通过相机姿态估计和跟踪、光照估计,让数字人更自然地融入环境;最后,将前面这一系列AI分处理汇总到3D渲染并输出,AI演员的影特效大片得以诞生。DreamAvatar生成的AI演员可以极大提高影视CG的制作效率,将原本以天为单位的制作周期,缩减到1小时内。

除了设计、视频以及影视之外,美图视觉大模型MiracleVision的优势场景还有不少,而这都要得益于美图此次发布会的顶层战略理念——即以从生活场景向生产力场景进化,构建美图AI产品生态,解决行业深层问题。

吴欣鸿表示,“AI对工具的价值,就好比电对于电器的价值,电的发现推动了工业革命,AI的发展则让我们进入到了智能时代。AI正成为推动工具效率变革的能源,屏幕上这些当下热门的AI产品,让过去需要花大量时间才能完成的工作,变得前所未有的简单。”

“我们希望,在这以后,用户想起美图。不再是一个简单的美颜软件。而是切切实实的智能工具。”

发布会现场,吴欣鸿壮志酬筹,面带笑意却目光坚定,似乎在告诉全世界,关于美图与人工智能的故事才刚刚开始。

在美图影像节活动现场,AI 科技评论及多家媒体亦与美图公司创始人、董事长兼首席执行官吴欣鸿展开了深入交流,对话摘录如下:



4

对话吴欣鸿:目标和能力做好匹配

聚焦业务最紧密的领域

1、AI科技评论:何为视觉大模型或者多模态大模型?

吴欣鸿:从企业经营者角度,我很确认美图今天做的这个视觉大模型一定是公司最核心的业务,未来能够为我们提供最重要的支撑。回想起我在15岁的时候,也就是1996年,我当时去中国美术学院准备考附中,后面又进入了中国美术学院的油画系去进修。那时候是我在视觉能力上的一个启蒙时期。我开始系统地去学习各种艺术的类别,去感知、认知艺术与图像。其实今天的视觉大模型和我当时作为一个15岁的学生时的状态可能是差不多的,如何看到眼前的世界,如何更好地理解这个世界,用大脑和双手去表达出来,呈现出一幅油画或者其他的一些艺术作品,这就是我所理解的当下的视觉大模型。

2、AI科技评论:视觉大模型会推动哪些行业的发展?

吴欣鸿:我们是一家擅长做工具、做应用、做整合的一家公司,在视觉大模型的应用上,我们前期会比较聚焦与我们业务最紧密的这些领域。我一直觉得战略就是目标和能力的匹配,所以目前我们的能力在这,目标也不敢定得太大,先把能力所及的事做好,再一步一步看能否延展到更多的应用场景、更多的行业。

3、AI科技评论:您对公司下一步视觉大模型的技术创新有什么样的要求和期待?

吴欣鸿:这个问题我想引入最近新发布的Apple Vision Pro这个设备来回答,如果我没有记错Vision Pro应该有多个摄像头,无论是往前、往眼睛,还是往下,人们可以看到各个视角下的物体。它其实是一种视觉感知能力的极大强化,我们可以实时去识别一切、分割一切,去做很多跟空间的交互,我们也能拍摄一些临场感很强的照片或者视频,这种感觉很难用3D或者其他形容词来形容它,那是一种近在眼前的体验,我想这些都会对未来视觉大模型的能力得到一些拓宽。刚才说到大模型的感知和认知需要不断提升,我想未来如果能借助这些新的设备进行创新,大模型应该会有很大的提升。

4、AI科技评论:美图和一些行业伙伴达成了合作,是不是意味着美图正在将AIGC能力分享给行业伙伴?具体有哪些领域?

吴欣鸿:我们很希望能够跟行业头部进行AI的共创,比如说我们跟FILA进行“AI潮鞋”挑战,事实上我们和FILA做的远不止一个活动,双方的团队进行多轮的深入的讨论、调试。我们很需要这些头部的合作伙伴的认知和帮助。我们认为这是快速提升美图视觉大模型以及团队能力的一种方式。

5、AI科技评论:视觉大模型上如何更新自己对美学的理解?

吴欣鸿:我们觉得靠美图自身,哪怕我们有自认为在美学上比较专业的团队,这也还是远远不够,所以我们才有了创作者的生态,我们让外部非常优秀的艺术家、设计师在我们的生态上去训练他们自己的模型。比如说我是插画艺术家,我会把自己过往的作品放在美图上面去训练,并且把它命名为我的专属模型,为美图的用户以及更多外部客户提供模型生成能力。美图得到了很多艺术家以及设计师的认可,因为美图帮助他们提升了收入以及粉丝量,他们也从中收获了很多对于美学的沉淀。我们是通过生态的方式来获得的成功,而不是自己闷头做的方式,因为闷头做再怎么做都是有局限的。

6、AI科技评论:如果满分是100分的话,吴总给目前的美图大模型会打多少分?

吴欣鸿:我自己的主观判断不一定对,我只给大模型打了60分,不知道会不会影响我们团队的心情,毕竟耗费这么长时间进行投入。虽然说在过去几个月这个模型进步还可以,但是离我们认为最理想的生成效果还是有比较大的差距,特别是在创造性上面。但起点越低,空间越大,我们还是觉得美图有很好的基础去把这个事情做好。我们是比较有韧劲、有耐心的团队,一个美图秀秀就是一个小的APP,但是我们花了15年的时间以及巨大的人力去打磨。所以我们会不会用15年,甚至更长的时间去打磨视觉大模型,这也还是个未知数。所以我们也很期待自己的表现,比如说半年后,回头来看今天,我们会给自己打多少分,这才是更值得关注的问题。

7、AI科技评论:大模型一旦开源,其他企业也会迅速拉平这些能力,大家能想到的应用场景也都有限,那么未来的美图大模型的竞争壁垒会在哪里?

吴欣鸿:首先美图做的是国内首发的懂美学的模型,美图在这方面积攒了非常多年,它比较具有主观性,在十几年的沉淀中,美图积攒的对美学趋势的探索,是我们非常重要的,而且是非常核心的竞争力。很多人都在做这种视觉模型,但是我们的模型会对人像的理解会更深,图像的质量也会更高清、更可控。

除了在美学上的积累,美图还有一个比较大的用户基数,我们现在是2.43亿的月活,这代表着美图可以很短的时间内验证产品性能,过程会比较的顺利。

此外,无论是视觉大模型还是在其之上的一个应用,都会面临一个获客的问题,获客成本太高,对于厂商来说是个很大的挑战。但这对于美图来说,根本不成问题,美图在这方面应该说算是得天独厚。另外大模型做出来以后谁买单?我们做出模型首先是我们自己买单,我们内部的结算就会通过API、SDK的调用,先让大模型的商业模式能够成立。同样,在应用上面,美图也已经把VIP订阅、单购这些模式跑通,所以未来我们会让围绕大模型的应用可以很快的商业化。对于所有厂商而言,造血是一个很重要的能力。另外,还有一个点在于,在美图平台上的这些创作者和开发者,美图能让他们实现变现从而获得分成,这对美图生态非常重要。

8、AI科技评论:图像参数量越大,需要计算资源越多,如何解决这个难点的呢?

吴欣鸿:参数量越大,需要的计算资源越多肯定是一个问题,我们通过生态的方式解决这个问题。比方说把模型能力提供给用户之后,用户一起来共创,他们也会获得一些商业上的收益,这个收益也会反哺模型的计算资源的补充和不足,所以说我们把它变成一个更灵活点借助生态的方式去把我们这个模型能力建设起来。

值得一提的是美图引入了云,我们需要特别感谢云厂商对我们的支持,各家云厂商内部有一个服务的调度系统,当我们遇到算力问题时,我们会实时调度到各个平台上去,由云厂商在背后为我们提供大力支持。
9、AI科技评论:美图如何看待创作 AI 相关工具与创作者之间的关系?AI 技术与人之间如何协作?
吴欣鸿:美图发布的WHEE,主要是去帮创作者去解决创作门槛的问题。在我们的工作中,AI产品能放大设计师的想象力,比如说一些贴纸文字,只需要数据扔进去,便可以训练出一个比较可用的贴纸,对这些设计师来说是一个很大的提升。另外我觉得对普通用户或者说初级用户来说,它降低了门槛,让一部分原来不会设计的人也拥有了设计能力。
10、AI科技评论:这次发布的新品能够感受到美图的一些变化。这种变化是美图主动的求变?还是被动的求变?美图能不能够适应这种变化?
吴欣鸿:首先美图应该算是主动的求变,刚才我也有说美图之前更多的是服务于生活场景,现在我们看到在生产力场景上其实有巨大的需求和商业化的机会。这些能力我们其实都具备,我们在过去15年为生活长款服务的能力逐步的移植到生产力场景上。当然作为一家商业公司,我们还是很追求收入和利润的增长,很显然在这个领域有巨大的商业空间,这对我们来说会是一个增量。像刚才提到美图有2.43亿月活跃用户,有百分之二点几的订阅渗透率,显然这个订阅渗透率有蛮大的提升空间,很多产品都可以达到百分之十几或者二十几的订阅渗透率。但是我想说,这些对我们来说是一个存量用户的变现,如何去寻找增量,机会就在生产力工具上。所以我们特别主动。
11、AI科技评论:美图为什么要进军数字人市场,跟商汤、百度、小冰相比,美图的优势在哪里?
吴欣鸿:我们会从自身的优势和用户的需求去出发,美图刚刚也提到了,这15年来帮助优化、美化真人形象。现在年轻用户对风格化的数字人即虚拟形象有越来越强烈的需求。在生产力的场景大家对这种写实的数字人,像刚才提到的无论是模特、口播、客服等等,也存在较大的需求,所以我们更多从用户需求和场景的优势出发。举个例子,比如用户在美化自己照片的时候,可以提示是否要创建自己的数字人,对用户来说这是一个很自然的场景,再比如说写实数字人只要几张真人的照片就可以创建,当然如果录制完整的视频效果会更好,这是自身的场景优势。再结合刚才提到的用户需求,所以我们就做了。另外,美图在美学上确实有比较多的沉淀或者高要求,所以我们做的数字人相信未来会去卷它的美学,我相信这也会是跟很多友商有所区别的一个地方。
12、AI科技评论:以往美图是专注生活场景,此次发布会是否意味着美图现在开始全面进入了生产力场景市场?
吴欣鸿:从生活场景到生产力在影像这方面技术底层是共通的,举个例子, 在生活场景,抠图算法针对用户以人像和人体为主,进行人像和人体的分割,并且做得很精致。在生产力场景,这个功能可能会用于五金店抠图螺丝、锁等等,换上他们的背景图,抠完图之后上架做售卖。我们发现虽然底层技术相同,但实际应用场景很不一样,所以从生活场景到生产力场景的转变,看起来容易,实际上要做很多精细化适配的工作。过去15年,美图在生活场景存量市场已经挖掘得差不多了,所以转向生产力场景是时势使然。对于美图来说,生产力场景是未来十年的重点布局方向,空间很大,美图团队也感觉特别兴奋、很有干劲。
13、AI科技评论:AI在视频创作方面,会给行业什么样的变化,变化会有多大?
吴欣鸿:从美图的角度去看,我们发现视频创作工具的需求一下子大了起来,变化的话,就是我们内部开始变卷,开始没日没夜投入到工具的开发中。我们也看到随着越来越多的视频创作工具发布,创作者大量的时间被节约,所以他们有更多的时间去考虑说怎么讲好故事,把这个脚本打磨好,怎么塑造好IP,让他的形象更鲜明、记忆点更多。我觉得这是好事,帮我们节省了很多重复的工作。
14、AI科技评论:AIGC相关产品研发需要强大的技术支持,请问美图在技术研发上进行了哪些投入?后续有什么计划?
吴欣鸿:事实上,美图在AI早有布局。2010年,美图通过成立MT Lab(美图影像研究院)聚焦计算机视觉。自2013年开始重点投入深度学习,2016年即推出AIGC的产品雏形“手绘自拍”,广受全球用户欢迎。2022年11月以来,美图AIGC产品进入爆发期。
在团队建设层面,美图在北京、深圳、厦门等城市均有设立研发团队,成员来自于新加坡国立大学、复旦大学、厦门大学、华中科技大学等国内外顶尖高校硕博人才。在计算能力方面,美图已经与头部云服务厂均建立了稳定友好合作关系与战略合作伙伴关系,同时拥有完备的算力基础设施,并持续迭代升级自有算力能力。
美图也积极参与业界活动,与行业伙伴交流合作。2022年,美图公司携手国际多媒体顶级会议ACM Multimedia 2022举办第四届Person In Context竞赛。美图影像研究院(MT Lab)在CVPR 2022、ECCV 2022、AAAI 2022等国际顶级会议上发表多篇学术论文。另外,美图AI开放平台(Meitu AI Open Platform)持续为行业提供经市场验证的专业AI算法服务和解决方案。
在商业模式层面,美图的很多AIGC应用场景有已经被验证的商业模式,用户愿意为AIGC产品订阅或单购。
高研发投入是支撑美图持续创新的“压舱石”。
2022年,美图公司研发投入达人民币5.86亿元,同比2021年增长7.5%。
未来,美图将持续进行科技创新探索,结合用户需求研发AIGC新品。
15、AI科技评论:MiracleVision是一个怎样的收费体系?整个商业化进程是否可以详细讲讲?
吴欣鸿:在我看来,好的视觉大模型需要有良好的“模型生态”支撑,这个过程离不开创作者和开发者的持续参与。未来,我们会为创作者提供创作支持,例如像课程、社区和模型创作大赛等。
例如,创作者训练的模型可以在美图旗下产品进行分发,在分发的过程中还能持续进行模型优化。此外,行业客户可以通过MiracleVision它的API或SDK进行商业使用,创作者和开发者也可以从中获得经济收益。
16、AI科技评论:美图所理解的“艺术美感”风格是什么样的,它又怎样赋能MiracleVision?
吴欣鸿:近年来,美图公司陆续推出了“中国潮色” “国潮纹样”“东方潮妆”等一系列以影像数字化方式演绎“国风国潮”的传统文化项目,诠释中国美学。
美图通过对图像进行多维度的特征提取和分类,融合“国风国潮”本身独特的色彩配色方案,将概念转化为图像视觉方案。同时,结合视觉大模型本身对语义理解的能力和对亚洲人像背后审美艺术的洞悉,依托美图在影像领域深厚的技术积累,MiracleVision视觉大模型实现了对生成图像的精准化控制,在此基础上MiracleVision视觉大模型通过自主学习,对国风元素的识别、理解和生成,都具有更高的准确性和创造性,真正实现了对“国风国潮”的理解。
17、AI科技评论:在今天 AI时代,对于更多的视频行业的从业者,有什么建议吗?
吴欣鸿:其实我更希望视频创作者们给我们多提一些建议,因为在AI工具发展的初期还是需要很多来自行业各个职能的声音,无论是正反馈,还是负反馈,都能够很好提升服务。
在未来,当AI的工具越来越完善,视频创作者或者说更广大的创作者应该聚焦哪块的话,我一时也想不起来,我觉得回到我自身,我是一个兴趣驱动的人,我相信只要你对自己现在所在的领域持续保持热爱,充满好奇心,还是能在未来找到自己非常独特的价值。
18、AI科技评论:关于视觉(可以是大模型也可以是小模型)接下来新的技术突破点会是在什么地方?
吴欣鸿:未来的话,我觉得变革可能还是产生在视频和3D方面,或者视频和3D结合的方面。比方说这十多年以来,无论PC互联网到移动互联网,大家看的内容还是2D的内容,主要是因为大家用的手机是个2D平面展示。所以说3D没有发展起来,这一方面是因为存在技术的难点,另外一方面大家也缺少一个比较好的互联网的接入设备,但大家看到今年发生了一些改变,像Apple Vision Pro发布的时候震撼了整个行业,所以很多厂商也会跟进,把价格拉低。有一个很好的3D接入设备之后,我相信在视频上以及各种3D特效制作上一定会有一些改变。像今天发布的AI演员其实也是简单的尝试,希望把3D内容的制作和视频制作结合起来,早一点进行布局,进行早期的积累。
19、AI科技评论:视觉大模型对人们的审美观念和美学研究会带来什么样的影响?
吴欣鸿:美图一直在研究美学的趋势,但我们从来不认为审美可以被定义,我们一直在帮助每一位用户去发现自己喜欢的美,这是一种个性化的多样的美。我们要尊重美的形态各异。AI创作现在确实是处在一个比较缺少灵魂的状态,我们也很好奇说,未来有没有可能出现这种真正有创造力的,能够打造自己独一无二风格的AI艺术家?
20、AI科技评论:美图设计室已经更新到2.0版本了,其中有一个功能叫做AI商品图,如何动态展现这些模特衣服上身效果?
吴欣鸿:现在很多手机,比如说iPhone它后置的摄像头有Top模组,理论上可以进行空间建模或者说物体的扫描。当我们把一款商品去360度围绕拍摄,理论上可以得到一个3D的草模,AI可以在分类统计上去进行渲染,去做很多效果的提升,可以让它有这种动态效果。我不知道刚才大家有没有关注美图设计师的 AI潮鞋环节,那个鞋子它是不动的,我们用一个3D的白膜去进行AI逐帧的渲染,基本上每两三帧就换一个风格,它就这样转起来了。
当然我觉得这块的技术还远不成熟,因为3D生成可能还处在一个比较早期的阶段,我们现在已经在做一些小的探索,如何做到真立体还是假立体。这个是未来我们需要攻克的。
21、AI科技评论:VIP订阅业务已经是第一大收入来源,用户方面,AI的应用带来最大的变化是什么?
吴欣鸿:在AIGC爆发之前我们也积累了十几年的影像技术,我们要去做一款效果非常惊艳的产品,其实需要做很大的时间和人力成本,而且还有很大的不确定性,现在这些积累让我们可以快速把一些构想落地去验证,带给用户的反馈也非常正向。从另一个方面而言,这些创新功能用户之前可能没有使用过,用户也会有足够的动力去使用甚至去付费。
比如说像3月份我们全球首发的AI动漫,当用户看到自己拍摄的一个视频,可以被转化成像美漫或者日漫的效果,那一刻我相信用户会感到非常惊艳,特别能亲眼看到自己真人到动漫的变身的过程,这个成果能够极大地拉动我们订阅和单购的收入。所以总的来说,AIGC爆发对我们业务产生了一个非常积极、正向的作用。

参考链接:

1.https://xueqiu.com/9374162244/246427787

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报对话|三个月诞生79个基础大模型,中国到底需要什么大模型?引入33个大模型,百度智能云千帆大模型平台的“破茧时刻”听劝做了一件事,我告别了美图秀秀的瘦脸功能目前只To B,腾讯云为什么优先发布行业大模型,而非大模型?高考热门专业到底咋选?我们问了7位大咖......过海关有惊无险,会友人喜乐有加只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务黑道精英畅谈文化伦理 足底按摩应该如何定性|《低俗小说》深度赏析二青旅拒接“35岁以上中年人”?我们问了问5分钟端侧部署视觉大模型!专为Transformer优化的AI芯片来了一文盘点视觉大模型高效应用方法重磅!Meta开源DINOv2视觉大模型!无需微调,效果惊人!被姐妹们问了N遍的无痛耳夹,又出新款了...视觉大模型高效应用方法盘点(内附论文代码)美图大模型发布!一口气上新7款产品,股价暴涨21.28%阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl这个举国项目,我们问到了内部工作人员CIVC 2023第一届中国工业视觉大会正式确定!苹果Siri、亚马逊Alexa计划集成LLM;电信推出通用视觉大模型;欧盟达成《人工智能法》协议丨AIGC大事日报探索“视”界 放眼未来CIVC 2023第一届中国工业视觉大会顺利举办接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级PRCV 2023 | 第六届中国模式识别与计算机视觉大会投稿通道正式开启To B大模型,一场重塑企业软件的大模型革命360正式发布自研大模型,周鸿祎:国产大模型追赶GPT4的速度远超想象ZT:精彩OK的部分采访被姐妹们问了N遍的无痛耳夹,又出新款了。。ViLT: 没有卷积和区域监督的视觉-语言Transformer模型华为率先把大模型接入手机!小艺+大模型,智慧助手智商+++最互动的米其林坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」腾讯云公布行业大模型进展;美图推出视觉大模型;华为高管称AI算力将增500倍丨AIGC大事日报被姐妹们问了N遍的无痛耳夹,又出新款了,这次不仅有耳夹还有戒指!一个父亲在女儿婚礼上的致辞
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。