Redian新闻
>
数智商业技术2.0时代的新「三驾马车」,阿里妈妈郑波谈如何把握生成式大模型

数智商业技术2.0时代的新「三驾马车」,阿里妈妈郑波谈如何把握生成式大模型

公众号新闻
机器之心报道
编辑:杜伟

看阿里妈妈如何在数智商业技术新时代把握生成式大模型引领的这股 AI 浪潮。


2023 年已经过半,可以说是属于生成式 AI 大模型的一年。自 ChatGPT 推出以来,这股新的 AI 技术浪潮迅速席卷了国内外。尤其是国内,科技大厂、初创公司和科研机构陆续推出了近百个通用或特定领域专属大模型及应用产品。


随之而来,行业企业也寻求自身业务场景与相关 AI 技术的契合点。以当前企业发展中普遍达成共识的数智化经营为例,也在积极探索大语言模型、多模态技术等对数智化升级和业务经营效率与效果的提升。


在近日于武汉举行的 2023ACM 中国图灵大会 SIGAI China 论坛上,阿里妈妈及闲鱼 CTO 郑波分享了他关于数智商业技术的洞见。他认为,在这轮生成式 AI 大模型的驱动下,数智商业技术将进入 2.0 时代,其中知识驱动、逻辑推理和创造性将成为明显的特征。


在其主题报告《知识、推理和创造,重塑数智商业技术 —— 从北大 - 阿里妈妈人工智能创新联合实验室谈起》中,郑波介绍了阿里妈妈技术团队针对不同业务场景,探索生成式 AI 大模型、多模态、引擎等技术的创新和应用,为商家客户和消费者提供精准、高效、高质的产品和服务。


以下为郑波老师的主题分享内容,机器之心在不改变原意的前提下进行了整理。


数智经营技术从 1.0 进入 2.0 时代

阿里妈妈做好了准备


大家知道,自去年 12 月底至今,一波以生成式 AI 大模型和 AIGC 为代表的 AI 技术浪潮正在深刻影响着未来的技术走向,学术界和工业界都在关注相关技术的发展。我将更多地从工业界视角分享阿里妈妈对数智商业技术的一些趋势判断和技术进展。


作为直接与商家客户、消费者互动的平台,我们观察到,AI 技术正以前所未有的速度重塑和改变商业场景,技术变革的速度可以用「时新日异」来形容。


面向未来的数智商业技术,我们认为将会呈现三个明显特征,即知识驱动、逻辑推理和创造性。未来将形成基于认知和常识、端到端链路有推理和执行过程的、更有创造性的数智商业技术。


基于此,我们判断数智商业技术将从 1.0 时代进入 2.0 时代。1.0 时代以在线经营、基于数据统计和经验判断的数字经营为主,而 2.0 时代将会是知识经营、基于 AI 的决策执行和因果推断的创造性智能经营时代。


同时 1.0 时代更多是从领域数据、有监督学习等 AI 技术出发,2.0 时代则将从生成式 AI 大模型、多模态技术以及对数据的更有效运用等新变化出发。除了进一步重塑和改变商业场景之外,2.0 时代将深刻影响商家经营方式、消费者购物体验等。



在这种新的趋势下,阿里妈妈立足知识驱动、逻辑推理和创造性三大方向,通过生成式 AI 大模型等领域的技术探索和研究应用,形成领先的全栈式技术体系,将最前沿的 AI 技术应用到多样化商业场景中来。具体如下:


  • 探索大语言模型、多模态、大模型引擎技术在智能营销 Agent、联盟广告分析(智能问答助手)等知识驱动方面的应用;

  • 在逻辑推理方面,通过增强分析以及包括 AIDA、Neural Auction、AIGB 等 AIGA 决策智能技术算法体系,帮助商家进行投放决策和精准评估,管理大规模的人群、商品和内容资产;

  • 在创造性方面,通过营销创意工具、智能设计等帮助商家自由生产创意;

  • 通过内容风控和防作弊等帮助商家和平台更精准识别和处理风险,降低损失。

  • 接下来一一来看阿里妈妈在知识驱动、逻辑推理和创造性三个方面的应用进展。


知识驱动篇

多模态赋能商品检测 

& 大模型服务引擎贯穿多场景


在知识驱动方面,我首先介绍多模态技术深度应用工业场景的案例 —— 拍立淘。在手机淘宝中,用户会使用拍立淘拍照搜索来准确表达搜索意图,通常是想要找同款或者比较价格。因此,充分理解 Query 图片和商品,实现同款商品准确检测,不仅影响用户体验,也决定了商家对这部分精准用户的有效投放。


可以说,广告投放的多个环节都涉及到多模态技术的运用。我们首先针对商品主体检测,提出基于文本 prompt 的多模态目标检测方法,通过文本和图片主体的对齐来提升目标检测效果,相比单模态方法在检测 mAP 指标上提升 2.1%。


在识别主体后,我们通过多阶段的表征预训练框架,训练了面向同款检索的商品多模态表征,并通过高性能向量化检索引擎实现在线实时同款商品召回,top100 召回商品同款率超过 98%。



对于商品多模态统一预训练表征,我们使用了预训练 + 微调的两阶段训练范式。第一阶段使用超过百亿级电商图文语料,采用图文掩码建模任务做无监督预训练,让模型在见过更多数据后,学得更好的图文编码器;第二阶段使用超过十亿级拍立淘成交图文对,采用对比学习任务做有监督微调,并在 loss 上同时对齐图像、文本和图文,不同模态之间更好地对齐。


为了支持多模态模型的高效训练,阿里妈妈技术团队研发了基于 MDL 训练框架和 AiLake 存储系统的大规模多模态训练平台。目前基于 100 张 A100 卡,我们可以在两天内完成 50 亿量级样本的训练。


除了商品检索的多模态技术创新,阿里妈妈还针对智能创意、营销分析、平台提效、业务反作弊等多样化商业场景开发了 AI Serving4LM(大模型服务)引擎,具备千亿参数规模的大模型服务能力。



逻辑推理篇

决策智能、增强分析助力商家精准投放


在逻辑推理方面,我将首先介绍阿里妈妈的决策智能技术体系。


我们以智能营销决策大模型 AIGA(AI Generated Action)为核心塑造了智能营销技术体系,其中 RL-based Bidding(基于强化学习的出价)帮助商家显著提升营销效果,Learning-based Auction Design(基于学习的拍卖机制设计)更加高效地统筹优化多方利益。该技术体系完整架构如下图所示。


智能商业化策略解决的是,什么样的资源进行拍卖对平台最高效且最能平衡用户体验和商业收入。


智能拍卖机制决定了流量资源分配给哪些广告主以及扣多少钱,其本身也是一个可决策问题。我们提出并落地了 Deep GSP、Neural Auction、Two-stage Auction 等多个创新算法。


智能出价策略面向精细化出价的决策过程,通过多参出价策略、RL 参数优化或建模范式(如 Max Return 等)进行优化。


底层是基于算法的工程架构,包括海量数据实时处理、ODL(在线深度学习)模型训练等,它们构成技术体系的基础。



其实,我们团队很早就开始尝试用生成式大模型重塑智能营销技术体系,并衍生出了 AIGB(AI Generated Bidding)领域技能模型。作为一种基于生成式模型的出价模型优化方案,AIGB 将策略建模作为条件生成模型,消除了以往 RL 学习视角下的复杂性问题。


具体地,我们引入生成式模型将序列决策问题建模为一个序列动作生成问题。模型通过拟合历史轨迹数据中的行为模式,达到策略输出的目标。从结果来看,在通用数据集上,相较主流 RL 方法取得较好效果提升,为 Bidding 建模提供了一个可用的迭代方案。


接下来讲如何利用数据进行决策。对于淘宝平台上百万级中小商家而言,利用数据驱动决策的能力是可望不可及的。因此,我们希望借助 LLM,让数据转化为知识,并让知识普惠所有商家尤其是中小商家的经营决策。


如何实现呢?具体流程可以参考如下 demo。首先利用 LLM 理解客户意图、分析任务规划;然后在分析层,OLAP 引擎对多维数据集进行分析模型的自动化探查,向客户提供描述性、诊断性、预测性和行动性知识;最后 AI analyst 将这些领域知识和洞见以 Data Story 的形式向客户解读。并且,这些功能将在随后的产品中逐步开放给商家。


总之,通过增强分析,我们希望发挥数据在高质量业务决策中的关键作用,获得更深刻、敏捷的数据洞察。



最后来看智能营销引擎,我们形成了多模态应用范式驱动的交互式策略生成技术工程体系。在逻辑推理的工程引擎方面,为了更好地提升客户投放效率和效果,阿里妈妈自研超融合多模智能引擎 HME。


目前我们已经形成覆盖 OLAP、AI、Streaming、Batch、运筹优化五大方向的智能超融合引擎,围绕洞察 - 策略 - 投放 - 衡量的全链路场景,解决商家多经营目标组合优化的难题。


创造性篇

用创意服务为商家减负和增效


至于阿里妈妈的创造性方面,我将通过以下几个场景具体展开。


第一个场景是智能图文创意。针对很多中小商家没有制作创意图预算的情况,我们利用内容生成技术为他们制作创意图片。目前每天为百万商家制作数以亿计的商品创意图。


同时为了让创意图片更美观且更原生,我们研发一整套图片制作算法,包括 AI for 底图生成、图片智能布局和基于上下文的多模态图上文案生成。


流程是这样的:首先对商品建模,利用扩散模型对商品前景生成不同氛围且融合度高的背景,裁剪尺度合适的图片;然后选择适合图片的文案、衬底、Logo 或其他装饰元素;最后根据预测出的文本框位置、大小及周围颜色纹理,预测应该写什么文字。



第二个场景是虚拟模特。淘宝服饰商家会请模特来试穿,模特本身、布景、拍摄都要花不少钱。针对此,我们利用创意生成技术研发虚拟试装模特。


下图左为虚拟模特穿售卖衣服的图片,其中模特的性别、年龄、肤色、发型以及背景场景都可以个性化选择。商家基于自售衣服的特点选择属性,然后根据投放结果进行优化,时间和制作成本大大减少。


我们在技术上独创前、背景多次生成的流程,利用局部纹理控制网络来精细控制生成内容,并根据特有任务定制化训练基础模型,解决了目前模特换装中服饰还原度不够和前背景边缘不清晰问题。


阿里妈妈万相实验室:https://agi.taobao.com/


第三个场景是多种风格字体生成。商家做创意有时要花钱购买商用字体,我们为他们提供了多款免费、有特色的字体。如何做到呢?我们借鉴古代石碑、书籍中独具风格的文字,利用 AI 字体风格生成技术学习建模一种字体风格,再推广到所有常用字,得到一种可用字体。


如下图左,我们根据东晋著名碑刻拓印「爨 (cuan) 宝子碑」和颜真卿真迹「多宝塔碑」分别训练成了「阿里妈妈刀隶体」和「阿里妈妈东方大楷」。目前我们一共免费开放了 5 种字体。这些字体采用我们自研的字体风格迁移算法,提出了内容融合和投影字符损失等创新模块,发表在了 CVPR 2023 上,迁移效果业界领先。



除了通过上述多个创意性产品来为中小商家「减负」和「增效」,阿里妈妈一直希望推动 AI 技术普惠,让更多中小商家享受科技红利。这里我要谈一谈阿里妈妈的 AI 技术产品 —— 万相台,从媒体流量变现切换到商家经营需求视角,通过 AI 技术在全域流量上最大化满足商家拉新、上新、大促等不同营销需求,助力生意增长。


万相台的全链路流程。


除了深耕于融合业务场景的技术创新和应用,我们也非常看重工业界与学术界的深度融合、相互促进。我认为现在也是学术界和工业界更加紧密联系的一个契机,双方通过产学研等合作方式,可以实现从 AI 理论到工业实际应用场景的落地。


因此, 阿里妈妈正和国内众多知名高校、研究机构开展多个方向、多个项目的产学研合作,其中代表性的是 2022 年 9 月成立的「北大 - 阿里妈妈人工智能创新联合实验室(PAAI)」,重点攻关 AI 理论和创新算法研究。自成立以来,实验室已在大规模图模型、决策智能和智能音乐生成等方向有了一些研究成果和应用。


目前实验室已有 5 篇以上论文被 KDD、IJCAI、WWW 等国际一流顶会接收,大规模图模型和决策智能技术在阿里妈妈应用场景的落地也在有序上线准备中,智能音乐生成方向也完成了广告配乐小样的生成。


感兴趣的读者可以访问该实验室网站:http://paai.pku.edu.cn/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人脸识别技术应用征求意见发布;微软推出最强生成式AI虚拟机;华为天才少年大模型创业丨AIGC大事日报视频化时代,如何把握增长密码?大模型时代的“破”与“立”【2023数智产业领袖峰会主旨演讲分享】一文系统梳理 Google 三驾马车 | 极客时间时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了智能周报|OpenAI发布ChatGPT企业版,预计今年营收10亿美元;首批11家国产大模型「获批」,不包括阿里巴巴通义大模型【2023数智产业系列榜单】中国数智转型标杆企业榜发布!抢抓数字时代先机,引领数智化发展浪潮大模型与生成式AI黄金时代,每一个应用都会被刷新重写 | 榕汇走进微软Midjourney更新「摊大饼」功能,瞬间生成「清明上河图」,特写无限平移成全景照凯捷:生成式AI的收获季节:各行业生成式AI的广泛应用黄学东:大模型时代需要注重「三个臭皮匠」的联合能力丨GAIR 2023生成式AI时代的模型压缩与加速,韩松主讲MIT课程,资料全公开今天的音乐会 - 青春vs腐朽转型浪潮高峰论坛:转型就能「转危为机」?企业价值和抗风险能力的双驾马车要怎么开|WISE 2023新人力时代大会《生成式人工智能服务管理暂行办法》实施,8家备案模型生成内容真实性如何?【2023数智产业系列榜单】中国数智产业创新产品榜发布!注入创新力量,点燃数智化发展引擎大模型框架 LangChain 杀疯了,普通人如何把握机遇?| 极客时间GACS 2023 | IPU:赋能生成式AI,不止生成式AI北京内推 | 百度搜索策略部招聘生成式大模型/搜索排序方向算法工程师文学城大V“她死去了”传中国经济半年报解读:统计局重申不存在通缩,“三驾马车”下半年力度如何?美国股市即将降温?今年的三大「马车」势头开始放缓震惊!青年失业率突破20%后再创新高,二季度GDP增速不及预期,三驾马车分别遇到了什么问题?索赔1元的“大模型数据被盗第一案”和解;首个生成式AI监管文件正式施行;雷军:小爱同学已升级大模型丨AI周报给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术长篇小说《如絮》第一百二十五章 旧金山-2004年 如果时间能治愈冷却的不止季节(73)— 疾言厉色校招 | 飞腾信息技术2024届秋招提前批正式启动!中国电子旗下top企业,带薪年假,应届生落户补贴多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势地中海邮轮行之八学习生成式大语言模型,东北大学自然语言处理实验室有一堂课张维迎:想发展经济,最好忘掉「三驾马车」制造业不振、失业率高企、CPI+ PPI双双回落,“三驾马车”失去动力快速下滑 面临外循环受阻和内循环不畅的双重压力百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报生成式 AI 与大语言模型时代的 NVIDIA GPU 生态 | NVIDIA 解决方案与架构技术总监张瑞华演讲预告
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。