ZMO张诗莹:用AI实现你的创作自由
疫情之下,找到合适的外模来拍摄模特图这件事,愁坏了大部分出海品牌:外模价格日益高涨,还需要提前数月沟通档期,而同时卖家数量不断增加。
为了帮助卖家节省更多成本、高效上新大量产品、更好地实现差异化和本地化, ZMO.AI应运而生。家初创公司提供人工智能模特图片解决方案,能够降低拍照成本、减少等待时间,提升电商转化率。
ZMO.ai 成立于2020年。通过强大的 AI 算法生成独一无二的逼真虚拟模特展示服装,不再需要耗费大量的时间、精力、金钱来寻找模特,拍摄和后期制作。直接将产品上架成本降低到原来的 20%。
ZMO 核心团队成员来自 Google, Apple, Facebook, SenseTime, Adobe, Tencent 等国内外一线互联网企业,科研团队近五年在相关计算机视觉顶级会议与期刊上发表论文40余篇,包括CVPR,ICCV,ECCV,ICLR,AAAI等等。此前,ZMO.ai 宣布完成了 800 万美元的 A 轮融资。
AI是否能体现优于设计师的审美和创造能力?
疫情会对ZMO有什么影响吗?
ZMO的技术团队有什么样的优势?
本期的《创业内幕》,我们即将和领先的AIGC平台ZMO.ai的创始人——张诗莹Ella以及,GGV纪源资本的投资副总裁陈于思一起聊聊未来内容创作平台ZMO.ai的成长史。
Ella:
大家好,我是ZMO.ai公司的创始人——Ella。去年年初,我们开始创立ZMO.ai这家公司,我们ZMO.ai的使命/目标是希望能够打造未来的内容创作平台。
之所以想要做内容创作平台,是因为从最初的文字时代到图片时代,再从视频时代到现在短视频时代,大家每天都能看到无数内容,它们呈指数级上升,不断轰炸着我们的神经,而且内容的创作方式也日趋复杂,开始有AR内容、VR内容、各种元宇宙等。
我们认为,从内容的数量或者需求端来说,内容的数量和复杂程度只会指数级增加,但是从内容制作方式的角度来说,依然比较原始,无非还是花大量时间写文章、拍图片、拍视频。
我们在做ZMO.ai这家公司时想到的是,如果未来依旧完全依靠传统人力输出,那么内容供给是远远跟不上内容需求的,所以我们认为在内容创作领域,AI是一个不可替代的必然趋势。
目前AI不过是辅助人们进行创作,可能到未来就有一部分纯劳力内容可以完全交由AI去进行创作,在这种情况下,我们的人才能更好去负责创意部分。我们相信在未来,AIGC将是辅助大部分人去进行内容创作的一个工具,我们也希望ZMO.ai能打造这样一个下一代AI生成内容的平台。
Lily:
关于AIGC,我是不是可以理解为就是用人工智能自动生成一些内容?你也可以给我们介绍一下,现在哪些应用场景在广泛使用AIGC的技术和产品?
Ella:
是的,AIGC相当于通过AI的一个deep learning的模型,让AI经过大量学习,再大家去输入一些指令/参数/图片,它自己就可以生产出更有意思更有创造力的内容。
其实AIGC还是一个比较新的技术,现在在海外为大众所接受/已经走出大众视野的,是文字领域的生成,一个叫GPT-3的模型,由OpenAI这家公司发布,主要是在文字生成上面达到了可商用且效果非常好的状态,诸如Jasper AI、Copy.AI都是基于GPT-3技术。
GPT-3其实是用AI去创作长文章/长文字,我们只需输入几个简单的关键词,它就可以据此直接生成一整篇文章,并且这篇文章读起来和真人写的几乎无差,还是原创。它在海外已经受到了很多用户/公司的认可,所以文章生成应该算是AIGC现在走进大众视野且被大家商用的一个功能。
Lily:
打个比方,假如我是一个开店的博主,现在想放点宣传图片,就得自己去拍,未来就可以不用拍了,可以直接拿着衣服生成带有我版权的图片,也解决了版权归属的问题,对吗?
Ella:
是的,其实我们在做的AIGC,还是在从图片和视频这两块比较新的地方开始做,所以它现在其实是一个蓝海,才刚起步。我们看到的可应用场景有很多,比如刚才Lily提到的电商,我们有一个客户就很有意思。那位客户是卖巧克力棒的,但是当时有款产品的包装还没有设计出来,无法拍摄产品图,可他又需要先把产品上到链接上面。于是他就通过描述生成了一个他想象中的包装,再输入场景,生成了广告图。他把这个图先放在了产品网站上,获得了许多人的买单,所以他直接按照场景去做了巧克力包装。诸如此类的应用场景挺多的。
Lily:
我是不是可以理解为,我需要什么,就在后台描述场景,选择风格,然后就可以自动生成?太神奇了!那咱们现在一个产品贵吗?
Ella:
现在我们产品的好处就是,跟正常拍摄相比,它能极大节约成本和时间。因为正常拍摄精美图片,无论是电商宣传还是杂志大片,都需要摄影师去拍,拍的过程可能还需要等待时机,后期还需要调整修图,都很花费时间。
我们这个的好处就是便宜且快捷,只要你负责创意,能把创意用语言详细描述,那AI就可以以一个比较快的速度,以一个比较低的成本,去生成大量图片,他再从大量图片里去挑选自己觉得合适的。
甚至我们也在构建一个社区,可以看到其他用户大量生成的非常有意思的图片,也能够给到我们用户一些灵感。比如看到别人某张图很有意思,就可以通过对方这个风格,加入自己的元素,生成自己的非常有特点的图片。
Lily:
我也想问一个哲学问题,以我们马上上线的产品imgcreator为例,这个产品在生产过程中,你觉得AI是否体现出了优于设计师的审美和创造能力呢?
Ella:
其实大家可以把AIGC模型想象成一个正常人类小孩,它在学习过程中一定看了大量优秀艺术创造者、优秀设计师的作品。我觉得,从它的水准上来说,它肯定有大量的图是通过学习、模仿这些艺术家的风格来进行自我融合,但它并不会完全和另外的艺术家风格一样。
从它的创造水平来说,我觉得得分为两点:
第一,它确实可能好于设计师的平均水平,能够帮助设计师/艺术家省去一些很初级的、比较繁杂的、纯劳力的工作,可以给他们一个非常好的base,然后再在这个基础上去提升;
第二,我们会发现它还会有一些创造力,这个创造力体现在它会生成一些你其实没见过的风格/作品。大家以为它只学习了比如达芬奇/毕加索,只能画出达芬奇/毕加索的单一风格,但它却能用达芬奇的色彩感觉,结合毕加索的构图感觉,再加上张大千的画风,借此融合创造出许多新的风格。包括它在内容创作上,其实会跟我们以前的理解不一样,它是像人一样有创意的,这一点其实让我们非常惊喜。所以现在也有一个很热烈的讨论,有很多艺术家/设计师在担心,AI人工智能的产生,会不会危及到很多设计师/艺术家的一些工作和未来。
那么在我们看来,所有的艺术家/设计者更多负责的是 creation/创意/idea,我觉得目前还是很难被取代的。目前来说,人类在创意上是非常有主动性的,所以我并不认为它在短期会完全取代,但是我会认为,它在一定基础上可以帮助/替代我们,去做一些比较枯燥乏味的基础性工作,然后再通过人类进一步的创意/更高的技巧去对它进行加工。与其说它影响了艺术家的工作,不如说它其实让艺术家/设计师可以更好地专注在他们的创意部分,把他们的创意、对作品的理解这些灵魂部分可以诠释得更好,所以我觉得反而是一个帮助作用。
Lily:
据我所知,ZMO的产品在电商里有特别广泛的应用。要不Ella你给大家再讲讲,那个非常有意思的跨境出海电商用ZMO非常成功的例子。
Ella:
好的。我们当时发现,其实现在电商是做全球化的,不只是做单一一个国家。当他们把产品卖给当地人时,不仅是产品本身,包括搭配的人和场景,甚至整个图片也要符合当地的审美和场景。以前有很多出海电商,可能为不同国家去拍摄不同模特、不同场景,但是其实这样成本非常高,时间效率也非常低。我们后面是通过生成一个技术,可以去生成不同种族/身材/脸/肤色的定制化模特,我们的用户可以以更低的成本、更高的效率大量生成模特图,再配上他们自己的产品,可以非常高效但非常低成本地去更好做到本地化。
这里还有一个比较关键的点,也是我们跟客户在沟通中发现的。不仅是电商,对于通用营销来说,图片和视频这类视觉素材(我们叫Visual Marketing)其实变得越来越重要,大家其实非常愿意在视觉上花很多成本/精力去对它进行优化。所以我们认知就是,其实AI生成大大革新了大家生成创作内容的方式,可以极大提高大家的商业效率。
Lily:
于思,你们是怎么看到这样一个机会的?看起来好像还是一个非常专业的赛道。当时我们其实应该也做过横向比较,为什么最终在AIGC赛道里选择了ZMO?
陈于思:
说起来很巧,我们最早跟诗莹和ZMO团队接触,大概是在2020年年底,2021年年初,之前我们已经关注到了ZMO团队的一些工作。因为我们一直都在关注一些行业比较顶级的AI学术会议的一些成果,在整个视觉包括内容生成图像相关的一个最顶级AI会议叫CVPR 。我们关注到了20年CVPR上ZMO团队的一篇AI+Fashion的文章,让我们感觉耳目一新。在这篇文章上,我们直接看到了可以商业化落地的机会。和诗莹交流之后也是非常惊喜。因为他们不光有一篇非常好的论文,有非常好的技术,同时也有非常好的商业化和落地的思路,当时也是找准了跨境电商的落地痛点。我们非常认同他们利用AI+内容生成赋能广大创作者的技术和产品方向,比方说第一个落地在跨境电商,后面落地在营销设计、内容创作等等。
第二,我们也非常认同,AI+内容生成可能是整个深度学习AI爆发的第三个比较大的机会点。我们回顾的话,其实是2012年谷歌的 AlexNet这篇文章发在了CVPR上,引爆了AI+机器视觉/图像处理的一波浪潮,自此诞生了非常多的公司。第二波其实是2017年谷歌的一篇论文——attention is all you need,里面提出了transformer的概念,引爆了整个自然语言处理,不管是技术还是商业化。
我们一直在看包括像GAN(Generative Adversarial Networks,生成式对抗网络),包括像GPT-3,包括像最近的Stable Diffusion这样的技术,我们很欣喜地看到,在 AI+content generation,就是AIGC领域,其实不断有新的技术爆发点。所以当时我们看到了诗莹他们团队,看到了这个公司,结合我们对于整个AI未来发展和商业化爆发的判断,很快就做出了投资他们的决定。也一直很高兴的看到,他们从我们投资这一年多以来,也取得了非常长足的进步。
Lily:
过去这疫情会对ZMO有什么影响吗?
Ella:
其实过去的疫情对我们来说,反而是让我们看到更多内容创作的线上爆发。我们刚开始做ZMO的时候,国内外就已经有疫情了。我们会发现,以前大家的很多交流还是会在线下,但是现在比如一个老板想把产品卖出去,他得有一个非常好的图片/视频,比如说po在美团网站上,让大家觉得看上去真的很好吃,就去点它。
所以在我们看来,整个疫情其实是让整个在线媒体传播变得更加爆发,所以未来整个内容生态其实会变得更加多样,在online上的距离会更加近。我们可以更多通过不同的人去创作内容,大家去进行交流,在未来,其实人人都会成为内容创作者,人人都需要通过内容创作去进行交流和互动。
Lily:
于思我也想请你判断一下,像 ZMO这样一个团队,他在你看过的AI向公司里,算是第几梯队的,比如说Top级、tier one 、tier two 、tier three?
陈于思:
我觉得毫无疑问是最Top的团队之一。我觉得这个团队给我最impressive的地方,就是它结合了技术、工程化产品、商业化落地,是一个非常好的综合性强的团队。第二点就是他们团队的工程化能力是很强的,我觉得这和诗莹原来在苹果和谷歌做产品的经历还是很有关系。第三点就是商业化落地,他们团队里也有跨境电商,包括做To B销售非常多年的资深人员。我觉得到今天也证明了,我们当年的判断还是非常对的,而且我们更高兴看到ZMO的团队能够不断吸引优秀人才加入。
Lily:
诗莹本身并不是做软件出身,是做硬件出身,我就想请教你一下,从做硬件切换到做软件,这中间有什么技术上的不适配吗?
Ella:
其实一开始创业时我也担心过,我之前是做硬件的,现在创业是做软件,但是我觉得有两点让我觉得自己其实是有准备的:
一. 我在谷歌的后面那几年里面,其实有在项目里做软件,相当于半转软件去学习,还是对软件比较有了解。
二. 我认为这个团队里面,有一个东西是硬件、软件相通的,就是如何去做产品。因为最终来说,硬件和软件只是在技术上的不同,我觉得打造产品过程中最难的是“如何将一个硬核技术/非常前沿的技术变成产品”,这个东西非常难,会走过一段很长的路。
这条路上,第一我觉得是对于用户本身需求的一个洞察,第二是你如何去迭代你的产品,如何在你觉得对用户有价值的地方投入,如何在这个过程中去平衡你的产品和技术。所以在这个里面,我反而觉得我之前硬件的那些经验对我是有帮助的,因为无论是Air Pods还是Google,它们都是很新的技术,这些很新的技术一定有它的优点和缺点。那么如何去扬长避短,如何在这种情况下去找到它最好的场景,把它变成很棒的产品,这其实是我在以前的硬件经历中所学到的。
Lily:
其实ZMO.ai目前做的生意其实要解决的就是它的数据量非常大,这就不得不面对高昂的服务器、云带宽成本,我想问问Ella,你们是怎么解决成本上的巨大压力的?
Ella:
传统的AI算法比如像识别,其实要靠这种标注,就是我有巨大的数据,这个巨大的数据量来了之后,我要对它们进行标注,它到底是人还是车。当这个数据量非常大的时候,你对它进行标注的成本是非常高的。
我们现在这个方法其实是跨模态的,用不需要标注的模型训练方式去解决标注数据量巨大的问题。我们将文字的模态和图片的模态,一起放到了我们这个模型里面去进行训练,通过文字到图片这样一个跨模态的mapping/映射,让模型去学习到文字和图片的一个对应关系。这样的好处就是当我们去收集数据的时候,这些数据自己是带有一些文字描述的,我们就不再需要人工标注。
这样相比下来,第一是我们在数据上面,除了文字维度,还增加了图片维度,所以我们的数据量是比纯图片去训练它的数据量要大的;第二就是有了两个维度的信息之后,模型参数可以去相互学习,可以互相借鉴对方的weights,可以让你的学习更加有效率。
Lily:
据我所知,ZMO包括旗下的imgcreator,目前80-90%的客户都来自海外,我很想知道,咱们是怎么做海外市场布局的,我们有哪些优势去开展海外业务?
Ella:
我们目前海外有两款产品,一个是imgcreator.ai,包括remover的APP,这两款产品主要是海外用户。我们在去布局海外的时候,其实主要还是借助了很多社交媒体去获得我们的种子用户,包括我们自己有一个自己的Facebook的社区/群组,这里面其实是一些我们一开始的活跃的种子用户,他们可能会去用我们的产品,会在这里面对我们的产品进行反馈,那么有一些非常好的power user,甚至会去推荐我们的产品给其他用户,从而来去带来更多的用户。
另外我们也有一些用户其实是大V,这些大V用户自己其实就有很多粉丝,他们可能会在博客/推特等上面去宣传我们的一个产品,这样慢慢就有很多海外用户,他们也开始熟知我们的产品。
谈到优势的话,可能相比于其他一些海外产品,我觉得有两个其实是我们比较确定的优势:第一,我们是更加了解电商的一个创业者,我们可能离他们更近,知道对于内容生成的一些痛点是什么。第二,我们整个团队基本上都是海外背景,所以大家对于整个海外产品的用户体验是比较熟知的,再加上我们自己本身在整个GAN包括 Diffusion Models(生成扩散模型)等上面有我们自己的expertise,所以我们能更好地将这个技术跟用户本身的痛点需求结合起来。一些海外的APP可能更多是用户喜欢的东西,但是可能不一定像我们这种To B,有比较落地的这种use case,所以我觉得主要还是我们在对用户痛点的理解上有一些自己的优势。
Lily:
ZMO技术还没有在中国大量推广的原因之一,很可能就是我们的汉语语义识别,对技术来讲是一个比较大的挑战?
Ella:
我们现在 imgcreator之所以推出中文版,一个原因就是我们看到现在市面上很多流行的产品/APP,其实都是海外版/英文版的,那么ZMO自己在train的一个模型,其实是专门针对汉语进行过很多优化,加入了自己的一些语料库,包括整个模型的一些优化。经过我们优化的产品,针对汉语来说,它其实是能生成出来非常好的效果的。所以我们也希望通过这个机会,能够把imgcreator的产品带给更多国内用户,而不需要大家全部都去注册很多海外账号才能体验到。
Lily:
我们非常高兴看到ZMO在中国有了 imgcreator的中文版 YUAN初,也欢迎各位朋友们在公众号去关注“YUAN初”,我们就能够直接在微信上去体验这样一款产品了。希望各位电商从业者/网红/KOL可以尊重知识版权,将我们的产品用自己的工具生成属于自己IP的东西。
最后我想问问Ella,你认为中国AI下一步发展展会到什么方向?能不能请你开脑洞?
Ella:
我们认为AI就像现在的云,未来会更加普及化,成为大部分中国公司的一个标配。另外上一代AI是叫识别AI,大部分是从内容识别/物体识别/人物识别开始去做,但是我认为下一代AI其实更多会从事创作,或者将代替更多繁杂的一些劳动。它自己可能会具有创造力,可以去生成出来视频图片/3D动画游戏等等,可能能够生成出来我们所认知到的一切digital media,或者叫作AI生成万物。
我们会发现在未来,其实很多内容都是在AI辅助下进行创作的。我们人类和AI的一个关系,可能会是让人类更好地focus在最需要我们创意的,或者最需要我们输出价值的东西上面。AI会成为我们的辅助,在未来可以把整个创作门槛降得很低,让很多以前可能不会拍视频/不会画画/不会做游戏/不会做动画的人,只要有创意,只要有想法,就可以做anything。我认为到了那一天,其实AI就已经完成了它去辅助人类的任务,让人类去释放创造力/想象力/focus在更有价值、更有意义的事情上面。
Lily:
于思你有什么想要补充的吗?
陈于思:
还有几点是我们非常看好的,第一,就是海外整体的商业化。我觉得ZMO发展到今天,让我们非常兴奋的点就是,他们大部分用户来自海外,尤其是imgcreator这个产品,根据海外用户调研,用户喜爱度非常高。第二,依托于它非常强的技术团队,工程和产品能力,和竞品相比,imgcreator生成的内容质量是更高的,也是更符合客户需求的。第三,就是它的平台目前可以覆盖非常多海外的高价值的应用场景,包括营销电商设计、内容创作等等。第四,其实这是一个非常好的PLG的产品,尤其是我们发现其实PLG在海外其实是一个非常好的传播和商业化的途径,和国内环境相比,其实海外的钱是更好赚的。因为ZMO团队的核心联创们也都有非常多年的海外工作、学习、生活经验,我们也相信他们包括imgcreator,包括其他一些产品,现在已经有了非常好的海外用户base,那么未来我们也是非常看好它在海外的商业化潜力。
Lily:
最后其实有一个问题,像ZMO这么好的一个公司,发展这么快,你们有没有招人计划,在哪里可以看到这些招人的职位?
Ella:
我们目前国内主要是在深圳有一个办公室,在人才招募上,是有很多内部的refer/推荐的方式。我们在一些比较好的高校,或者一些大企业里面,也会有一些朋友,会互相去推荐。我们在网上也有很多招募渠道,希望对于内容创作和内容生成有兴趣的志同道合的朋友,可以向我们递来橄榄枝,希望能够一起去创建下一代更棒的智能创作平台。
微信扫码关注该文公众号作者