AIGC 创业如何突围?这家公司将真实图像生成提升了一个高度。作者 | 黄楠
编辑 | 陈彩娴
过去半年,ChatGPT 凭一己之力,将文本生成变成 AIGC 市场上最火热的技术产品,它的“智能”程度在一夜间刷新了人们认知,外界对大模型的追逐热情空前高涨。
但同一时间,人们有关 AI 的恐惧也被不断放大:据第三方服务平台 Resume Builder 调查数据显示,美国受访的1000多家企业中,使用 ChatGPT 取代部分员工的比例已高达48%;时代财经报道称,近一个月以来,某家游戏美术外包公司已裁掉一半的原画师;一名微博网友通过 AIGC 平台生成内衣模特,其图片也引发大量讨论。
可以看到所有的一切都在表明一个事实,AIGC 已经逐步取代了部分人类的工作。而就在最近,连营销人员也躲不过去了。
ZMO.AI 是国内最早成立的 AIGC 公司之一,此前专注于出海,与其他擅长艺术作品生成的平台不同,ZMO.AI 选择的是真实场景的图像生成,旗下产品 ImgCreator.AI 自2022年9月16日上线以来,B端用户量已达百万,3 个月内营收增长迅猛,ARR达到2000万人民币,即将推出的 Marketing Copilot 服务,更是吸引了超过9万家企业申请 API 等候名单、参与调用模型。
用户只需通过简单的两步,上传产品图片至平台、并给出对应的 workflow (工作流程)指令,Marketing Copilot 即可根据其需求,生成与产品相匹配的宣传图片、海报及营销文案等内容,将传统的营销流程,从拍摄、海报制作到后期投放优化,全部嵌入 AI workflow 自动化流程,极大地提高了企业在营销场景下的内容生产效率。
background AI 网址:https://www.zmo.ai/background-ai/而基于精准的高价值用户反馈数据,ZMO.AI 通过数据飞轮对垂类大模型的内容生成方向进行引导,实现模型自我优化,重塑以数据为驱动的营销内容新模式。
ZMO.AI 创始人张诗莹坦言,当 AIGC 迈向产品落地阶段,生成的图片不能只是收藏夹里的装饰品,而是能够真正解决企业、营销人员痛点,弥补数字世界内容消耗与供给的缺口,让产品实现真正的价值。
与抱着娱乐、趣味性心态来尝试 AI 绘画 的 C 端用户不同,B 端用户往往面对的是专业属性更强的场景,因此对于 AI 生成图像,无论是图片质量、画面内容可控性以及准确性的要求,相比 C 端用户也会更高,这或许也是类似于 ZMO.AI 这类专业化 AI 生成产品深受用户喜爱的原因。
Rowdy 是英国创业公司 e-Bike 的 CEO,拥有一个不到10人的小团队,公司针对欧洲自行车盗窃乱象研发了一套防盗系统,创业初期的搭建网站、社媒运营、还有大量 e-bike 图片拍摄对他们而言无疑是巨大的工作量。
2022年中旬,AIGC 的火爆引起了 Rowdy 的注意,他开始大量地浏览、使用 AIGC 网站,但许多平台 AI 生成的图像均是艺术美学风格,与其产品并不适用。
一次,Rowdy 偶然在 twitter 上刷到了使用 ZMO.AI 生成的人像图片,这令他十分惊喜,他通过大量调研发现了,ZMO.AI 生成器的真实照片风格不仅逼真度非常高,且分辨率可达到 4k-8k,完全满足其网页和博客对图片内容的需求。
近半年来,Rowdy 团队已经是 ZMO.AI 的忠实用户,其网站设计和公司博客配图均使用 ZMO.AI 生成,相较于高昂的拍摄费用,仅需要支付二十几英镑、每周就能完成200多张图片。
Rowdy 使用 ZMO.AI 生成素材后的公司网页
在过去很长一段里,从事家居产品出海的跨境电商公司负责人 Nila 也面临着她的营销难题。
Nila 公司出口户外沙发虽然在欧美地区增长非常迅速,但由于沙发产品外形较大,运输成本很高、搭建拍摄场景耗时长,每次拍摄产品图成为 Nila 最头疼的事情。她也尝试过 P 图的方式来完成,为了达到想要的产品图效果,Nila 还会拉着设计师反复沟通磨合,但最终呈现效果往往与真实拍摄效果相差甚远。
经过圈内好友介绍,Nila 接触到 ZMO.AI 的文字 P 图,她发现,将想要修改的产品上传到平台后,只需给出一段文字指令,图片即可自动化完成修改,图片效果真实、自然不说,数据表现也比之前更好,极大地减少了在过往营销环节中产品拍摄的压力和资金损耗。
在内容需求旺盛的当下,AIGC 所带来的内容生产方式变革随处可见。张诗莹认为,目前 AIGC 正在完成从简单的降本增效、即以生成金融/体育新闻为代表的文本生成,向创造额外价值、提供更专业化服务的方向发展,包括提供绘画、创作素材等创意型内容生成转移,跨模态、多模态内容成为发展的关键节点。以 AI 图像生成为例,该部分包括两大类场景,分别是创意图像生成、功能性图像生成,前者多以 NPF 等形式体现,属于创意发散需求,后者则涵盖营销类海报/界面、logo、商品图等,对于可控性以及准确性要求很高。张诗莹坦言道,那些带有玄幻、科幻的艺术图片更容易出圈,且由于场景虚幻的原因,就算生成不合逻辑的瑕疵,用户也会更加包容;而真实的、摄影风格的图像生成虽然难度更高,但进入实际应用场景里,其对人们生产与生活所带来的影响更巨大。比如传统的电商上新品,此前采用线下拍摄的方式,需要化妆师、服装师、摄影师、模特等等,而在今天的 AIGC 变革中,借助 ZMO.AI 等生成工具,可在几秒之内立刻展示商品在不同场景,不同搭配,不同人物的场景图,极大的降本增效。迈进具体的应用场景里,企业和用户往往面临着模型使用门槛高、内容生成随机和不可控的两大痛点。ChatGPT 面世后,诞生了一个新的岗位是 Prompt Engineer(提示工程师),他们通过一定的方法来指导模型生成有用的输出。但在传统的营销产业中,一般用户往往并不具备良好的 Prompt Engineering 能力,更不用说组合使用多种 AI 产品工具,如何能够提供开箱即用的 AI 产品和应用,让不懂技术的客户也能快速组成解决方案,满足自己的需求,这是 ZMO.AI 一直在思考的问题。在新上线的 Marketing Copilot 中,用户可上传自己产品过往的优质素材,在 ZMO.AI 上搭建训练自己的特有模型,随后上传产品图片至平台、并给出简单的 workflow (工作程)指令,特有模型即可根据指令以及品牌调性自动生成符合受众喜爱的营销图片,无需冗长复杂的prompt调教。同时,特有模型会实时进行内容方向优化,不断提高内容的互动率。ZMO.AI 将以往传统的营销环节被全部嵌入 AI workflow 自动化流程中,让模型来适应用户,替代复杂的 prompt engineering,即用简单的指令进行工作流的自动化,极大地提高了企业在营销场景下的内容生产效率。Nick 是一家专业营销机构的负责人,其工作内容是帮助广告主搭建官方社媒账号和设计广告素材。疫情之后,Nick 最大的感受是,“所有人都离不开线上营销”。AIGC 火爆之后,几乎同一时间内涌现出的多家 AI 作图网站,Nick 开始尝试在各大平台上作图,但他很快发现,包括 Midjourney 在内的大多数 AIGC 产品,无法满足营销人员的需求。AI 能够随意生成很多有创意性的内容,但对原图片中产品的细节,包括纹路、Logo 到材质等无法实现百分百还原,这种营销内容与实际产品“货不对板”的情况一旦发生,必然会带来极高的退货率,这也是通用。此外,不少 AI 生成产品玩法单一、个性化差,面临着严重同质化的问题。直到 Nick 在 ZMO.AI 上 体验到 Marketing Copilot,他惊喜地发现,Marketing Copilot 通过独特的算法,竟可以完全保持产品的所有细节,并依据产品图自动生成合适的布局和文案。并且通过自动化 workflow 生成流程,最终呈现效果从光影、分辨率到逼真度上可接近真实的产品拍摄图片,更兼顾品牌调性和转化率,真正满足对营销内容的需求。而在营销行业中,最重要的、也最令用户头疼的转化数据方面,ZMO.AI 基于核心垂类大模型,也进一步提出了模型自我优化和调节。借助 ZMO.AI 的 Marketing Copilot ,模型不仅可以依据此前表现优秀的营销案例,自动化生成大量符合品牌调性和成功案例风格的内容,还能通过互动数据的实时反馈,自动优化内容方向,通过不断迭代实现内容数据的提升。此前 Nick 团队就曾将表现不错的海报模板上传到 ZMO.AI 上训练特有模型,借助该模型输出的内容,往往也能更符合自己客户的受众喜好和品牌调性。Marketing Copilot 模型首先需要一到两周的时间对内容方向进行自适应调教,通过反复完成“生成素材--数据反馈--素材优化”流程,由此生成针对特定产品、特定用户人群浏览量和转化率更高的内容。在这个过程中,这些高质量营销数据的反馈“喂养”功不可没,不仅如此,这些数据往往是私密的,商家拥有完整的控制权。在 Nick 看来,Marketing Copilot 不再是一个简单的内容生成工具,而是改变营销流程的一整套解决方案,通过 AI 更强的分析能力和生成能力,将针对海量 SKU 批量生成高质量内容变为可能,并以最终数据为导向 24 小时不停歇的优化。当团队熟悉全新 workflow 之后,每一个 SKU 的出图量从原来的不到 10 张瞬间暴涨到 200 张,而 Nike 团队在借助 Marketing Copliot 大量进行 AB 测试和迭代后,更是将原有营销环节三四个月的优化周期缩短至两三周,销售额增长高达三倍。“它所展现的能力太强大了!再这样下去,我们营销人真的要失业了。” Nick 表示,目前公司确实已经在考虑缩减一部分营销人员,更全面的拥抱AI带来的全新工作流。ZMO.AI 基于传统营销场景下的高精准数据反馈打造垂类大模型,通过 AIGC 不仅推动营销生产方式发生变化,也形成了“数据驱动型”营销内容新形态。张诗莹认为,终极的 AI workflow 到底应该是什么样的,或许眼下下结论为时尚早,但对创业公司来说,眼下的焦点应聚焦在如何做出能解决商家痛点的产品,与用户一起不断迭代。
相比一年前资本和市场迅速涌向 AIGC ,GPT-4 为代表多模态大模型和搭载着 GPT-4 能力的产品,让大模型成为最炙手可热的新星,大厂和创业公司纷纷加入竞赛场。AIGC 最初的起飞过后,去伪存真,人们对其背后真正的应用空间和商业价值也有了更冷静、客观的思考。目前,从事大模型研究的大厂和企业不外乎三种探索路径:第一种是专注于大模型研发的公司,例如 OpenAI ,百度、阿里、字节等大厂;第二种是调用大模型的 API 、基于大模型和具体场景业务开发超级应用;第三种则是既做自己的垂直大模型、又提供应用服务的公司,ZMO.AI 就是属于此类。企业做大模型的实力对比很明显。大厂有多年的技术积累,同时在财力、人力等资源投入上实力更强劲,创业公司想要做大模型,风口期短,一旦时间拉长,往往会在大厂的挤兑下没有生存的空间。因此,大部分创业公司方向更多集中在超级应用,针对具体场景提供精细化垂直服务,技术投资少,也能在更短时间内见到收益。而对比纯应用层服务和垂类大模型,张诗莹表示,“大模型是少数人的机会,更多的机会还是在超级应用层和垂类大模型中。但如果没有垂直领域独特的数据积累,或者是没有和工作流紧密结合的模型构架,护城河也会很浅。”依靠第三方 API 提供的 AI+服务,“超级应用”往往只能解决单点的阶段性问题,难以深入模型层创新、自研层,企业难以构建核心竞争力、护城河浅。相较之下,垂类大模型通过搭建端到端的工程栈,覆盖模型的研发、训练、数据、应用整条价值链,这类公司的产品并不依赖第三方 API,迭代非常迅速,并且还能很好地利用应用侧用户的数据反馈形成数据飞轮,从而形成自己的数据优势。其中,Adobe、Typeface 和 ZMO.AI ,都属于此类提供垂类大模型服务的公司。2022 年 6 月,前 Adobe 公司 CTO Abhay Parasnis 创立 AIGC 公司 Typeface,首轮融资就获得了 6500 万美金,该公司面向 B 端企业提供营销服务。由于 B 端品牌企业对品牌调性、内容可控性的要求,往往无法通过直接调用 Stable Diffusion 来实现,为此 Typeface 通过个性化训练的品牌独有模型以及内容审查算法,针对大型品牌、提供了基于企业品牌定位和受众目标而生成的个性化文字及图像内容。“对于一家公司来说,最基本的一个问题是其数据和品牌形象的安全。每个企业都希望确保自己不会在不经意间创造出不准确、剽窃或冒犯性的内容,从而损害自己的声誉。”Parasnis 表示。不过也有市场观点提出自己的担忧,这种垂类大模型会不会某一天被一个更强的通用大模型所取代?未来所有的 AI 领域是否会以少数通用大模型为主导?对此张诗莹表示,“许多高价值的专业领域依赖的是特定的行业专有数据集,这些数据集并非网上公开能轻易获取的数据集也不太可能允许第三方进行AI训练和访问。因此,通用大模型往往很难利用这种专有数据和知识去训练或者优化这个领域的工作流程。”同时,用于 RLHF 的高质量用户反馈也至关重要,有助于不断推动模型内容方向和质量进一步提升。由于通用大模型和垂类大模型的用户群体差异较大,内容反馈数据也完全不同,这也使得由垂类大模型生成的内容相比于通用大模型,更能符合特定垂类场景的需求,生成质量也会更高。以 ZMO.AI 为例,ZMO.AI 专注营销场景,在 2 年半中积累的营销领域的 know-how 和精准的数据,经过了一年多的标注数据收集和营销用户 RLHF 反馈系统,最终训练形成垂类大模型,其用户群体更多是在营销方向的专业 B 端用户, 通用的AIGC产品难以达到他们的工作需求。ZMO.AI 联合创始人马里千认为,虽然通用大模型在许多任务上可以表现平均人类的水平,但它们在特定垂直领域中表现不佳,主要原因在于,特定领域知识不是常识、相关数据也不容易公开获取。例如,抠图作为一项复杂的视觉任务,其涉及到是否能准确估计每个像素的 Alpha 值,以从图像和视频中提取前景对象,当中不可避免地会受到背景、光照条件和物体透明度等复杂因素的影响。为了保留产品的完整细节,ZMO.AI 花费一年的时间和高昂的成本收集了高精度的抠图标注数据,并自研出高精度抠图算法。大模型后期要在专业场景进行落地,是需要在其基础上利用场景数据和工作流,马里千坦言,“往真正能够解决问题的具体场景上去落地,而且能够跟行业内的某些工作流绑得更紧的这些东西,我觉得这是大模型时代创业公司能够做的更有意义的事情。”减少大量的、重复性的工作内容,ZMO.AI 在互动度点击率等细粒度参数下不断优化内容生成方向,他们所提供的产品服务真正解决了用户的实际问题。据内部数据显示,仅一个月,ZMO.AI 在营销领域的用户营收增长就达到了150%。
为了更深入了解 ZMO.AI 疯狂增长背后的秘诀,AI 科技评论同 ZMO.AI 创始人张诗莹围绕 AIGC 和垂类大模型进行了一次对话:AI 科技评论:近一年来,AIGC 涌入众多竞争者,相比大厂,创业型公司的机遇在哪里?张诗莹:目前 AI 公司是有生态分层的,可以分为:大模型层、纯应用层、垂类大模型层。大模型层就像操作系统,是属于少数人的机会,更适合大厂或者大佬这种有雄厚财力人力的玩家,而创业公司更适合后两类。在底层大模型不断变动的时代,纯应用层壁垒很低、可持续性不强。垂类大模型的公司包括 Character.AI、Midjourney、Typeface等,这也是 ZMO.AI 坚持的路径。垂类大模型通过搭建端到端的工程栈,覆盖模型的研发、训练、数据、应用整条价值链,这类公司的产品并不依赖第三方 API,迭代非常迅速,并且还能很好地利用应用侧用户的数据反馈形成数据飞轮,从而形成自己的数据优势。此前,ZMO.AI 就将应用端大量的高价值用户反馈数据和模型完全打通,通过数据飞轮对垂类大模型的内容生成方向进行引导和优化,积累自己的专有数据集,根据数据会反馈给我们的模型,告知模型目标,例如我们希望模型的互动率比较高,通过模型自我优化,为用户提供更好的服务。AI 科技评论:相比于通用大模型,垂类大模型的优势在哪里?是否会被取代?张诗莹:我并不认为垂类大模型和通用大模型是一个对立的概念,相反,我认为垂类大模型可以站在通用大模型的肩膀上、进一步优化专业领域的模型。对于非常细碎、需求个性化的 C 端场景,通用大模型会更合适,然而像营销这种非常专业的 To B 场景,AIGC 产品不会是简单的一个对话框和后面的第三方 API 组成,因为专业场景对于可控性,准确度以及质量的要求极高,这必然会是一个复杂的系统结构,需要在通用大模型的基础上进行专门的模型优化,才能符合营销场景的需求。张诗莹:首先,ZMO.AI 在营销领域积累了2年半,对于这个领域的用户痛点有深刻的认知。AI 能够随意生成很多 creative 的东西,但是这个东西工厂能不能生产出来?这是一个很大的问题,当工厂已经生产出来了某款鞋,这个鞋不能变,所以生成的东西跟卖的产品是一致的,数字内容如何进入到实际的生活当中,必须得工厂生产,要工厂生产就一定要有版型、模具,需要前身,用户对于产品细节不能货不对板的需求;又比如拍摄和 PS 费时费力等问题,基于在营销领域用户洞察,我们才能搭建起来深刻绑定营销 workflow(工作流)的产品。其次,我们拥有大量营销领域的专业数据,包括超6000万高清真实照片数据集、用于训练超高分辨率的逼真照片,以及海量 alpha 抠图数据集等等。我们花了一年的时间有很多的标注数据,最终可以实现高清图像素级别的精确产品抠图。如果真正要在营销上去落地的话,非常重要的是怎么保留这个产品,从整个流程上来说,它也不仅是产品之后生成背景,包括可以生成帖子以及营销文案。最后,ZMO.AI 已经搭建、并验证了可跑通的专业营销用户 RLHF 反馈系统,通过高质量的数据反馈,在互动度点击率等细粒度参数下不断优化内容生成方向。张诗莹:我非常喜欢和用户聊天,每天会花2个小时阅读用户的反馈,很多用户的痛点都是在这当中发现的。我认为,早期看数据很难看出来真正的痛点,因为巨大的流量中既有我们目标用户,也有大量纯"玩"的用户,所以找到大量的目标用户观察他们的使用,和他们聊天就成了我的日常。此外,我还经常会去拜访客户的公司,和不同环节的营销人员交朋友。AI 科技评论:ZMO.AI 选择的赛道是做真实图像生成,背后的原因是?在打开用户接受度上是否会更困难?张诗莹:虽然包括 Stable Diffusion 和 Midjourney 都在做 Art(艺术风格凸显生成),但在我们团队的认知里,Art 对于整个行业或世界影响,没有真实图片、3D、插图等这些东西那么大,Art 可能是其中的一个应用,但日常生活中大家用到更多的还是真实图像、3D和专业性插画。一张真实图片,我们会在意的东西很多,比如一张男人照片脸上皮肤干褶的感觉,真实图片对细节要求非常高;第二是光影,光要如何做得足够自然,例如狗眼睛的光感、皮毛上光影的细腻程度。可以说,真实图片对包括结构、数据量和生成质量等在内,产品的生成能力要求会更高,因此也会受到更多的阻碍,必须要达到足够高的要求、用户才会去用。我们认为,最后 AIGC 要解决整个行业的内容生产力问题,不只是好玩、好看的问题。AI 科技评论:从您的视角来看,创业公司该如何应对大厂的竞争?张诗莹:竞争在所难免,但就目前而言,大厂推出的功能在我看来,更多是防御性反应,做的应用仍搭载在现有业务上,只针对有技术和愿意付高价的小部分人群提供部分附加功能。站在像我们这样的 AIGC 初创公司的视角上,应该从一开始就在新的内容创作范式框架下去创造产品,构建完全不同于传统工作流的 AI Native Apps。大厂是否能做出强大的新一代 AI 产品,关键还是在于最终能否革自己的命。未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。