Redian新闻
>
AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平

AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平

其他
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

京东创始人刘强东啊,他昨天又加班了。

准确来说,是他的AI数字人形象“采销东哥”,昨晚开启了自己生涯第四场直播。

这次东哥干的是图书采销工作。

与上两次直播不同,这一回直播间不仅有了数字人助理,还有多机位切换等展现方式。与此同时,和留言区及屏幕前观众的互动方式也有所增强。

量子位就此事询问了京东云言犀算法总监,得到答案是:

每一场想侧重表示的不一样。技术的手段比较丰富,很难一场里面都推出来。

不得不说,京东这回拿自家的京东云言犀数字人挤牙膏,还挺有自己的节奏(doge)

一周时间里,四场刘强东数字人连播,可谓出师大捷——

据公开的“战报”,其首秀不到1小时,直播间观看量超2000万,带货GMV超5000万。

难怪网上冲浪的时候,有人评价道,AI东哥真的是“数字人带货的天花板”了。

而且京东自己放话,这就是京东云言犀数字人的平均技术水平,且成本不到真人直播的1/10。

“自己的狗粮自己先吃”

刘强东AI数字人“采销东哥”上播第一天起,就有许多质疑。

质疑一,真的是数字人吗?真的不是让刘强东提前坐那儿,录好视频然后再播吗?

且看采销东哥的表现:

形象和真人刘强东几乎一毛一样,寸头、西装、左手腕带表,肉眼难辨真伪。

口音能较好贴合唇部动作,语速快、连音多,一般语句吐字较轻,一些重点会重音表强调,寻求认同时用“啊”来衔接;耳朵尖的朋友可能还能听出他的宿迁口音。

动作姿态不算僵硬,能有头部、手部的动态动作,且动起来后整个人也受光均匀。

但随着直播场数的增加,这种疑惑声渐渐下去了。

可能大家都觉得,是在没什么可能让刘强东忙中拨冗,每天坐在那儿提前录播吧。

质疑二,如果真的是数字人刘强东,那大伙儿看到的效果,会不会是面对自家一号位做的“特供版”?

换言之,其他公司如果同样想用京东云言犀数字人来做主播,是不是根本达不到这个效果?

就这个问题,京东云言犀负责人是站出来给了解释的:“刘总数字人技术,代表了我们现在的通用技术。”

大白话就是说,用了京东云言犀数字人,所有的大V/CEO主播都能有同样的这个效果,至少在120秒之内“惟妙惟肖”。

如果不信,可以亲自验证——前段时间京东618招商,给所有品牌商家免费开放了数字人基础版使用30天权益,都能用上。

京东云言犀负责人笑着表示,去年京东云就已经基于言犀大模型升级了数字人技术。

用句软件公司的梗,“Eat your own dog food”,自己的狗粮自己先吃,最开始团队内部先给京东云言犀负责人做了个AI数字人出来,但回头看和现在刘强东的数字人没法比。

2022年开始,京东云言犀数字人就已经开始商业化,目前有4000多家品牌使用。

去年双十一后,京东云言犀团队开始制作采销AI数字人,首先是在大时尚事业部测试,包括公众接受程度,停留时长,用户转换率,交互程度等。

团队心想,既然要追求刺激,那就把“Eat your own dog food”贯彻到底,干脆给公司老大也搞一个吧!

刘强东AI数字人“采销东哥”就这么诞生了。

10亿参数数字人大模型轻量上阵

采销东哥身后,是京东云言犀大模型团队,及其大模型做小后打造的10亿参数数字人大模型。

总的技术来看,言犀2年多前就选择了端到端的方式,即建模——驱动——渲染的一体化。以至于Sora出来后,团队惊喜发现端到端的技术方向是可取、可喜的。

不过,虽然和Sora是同一条路子,但最后应用的场景不太一样,言犀大模型数字人的赛道更聚焦,专注人物生成(原因是团队评估人物视频生成商业价值和社会影响力可能都更大)

而关于端到端的路线,这里展开说两句。

现在基本分为两大类,一类是完全端到端,中间不对任何环节进行显示的建模,完全是隐性的,都在一个空间里面做;另一类是对简单基本素材的人脸建3万多个点Mesh模型,再去控制人物的表情、唇型,然后做纹理的渲染。

京东云言犀说得很明白,2种方案会根据场景需求做不同使用。

京东云言犀负责人表示,其间比较得意的是人物大姿态的动作

“早期真人数字人,动作幅度比较小。基本上脸部不会怎么动,因为一旦头动了,可能就剩半个嘴唇了。”他透露,在大姿态方面做了较多技术投入,才有了现在AI刘强东的活动自如。

此外,身为主播,语音表达无疑也十分重要。

既要复现真人主播的语音、语调,又要学习真人说话的习惯,如语速、语调、重音、倒吸气。

就拿刘强东本人来说,他讲话很少有辅助词,也较少清晰读出连接词,如“跟着”的“着”字经常被一笔带过。

因为出生江苏宿迁,他的话语里还是会“露馅”,冒出宿迁口音来。比如“时间”中的“sh”会有更重的鼻音;后鼻音有时会被吞掉,变成前鼻音。

就,还挺有特色的。

原本呢,京东云言犀技术团队的计划是用刘强东2017年的一段演讲音频作学习素材,但测试发现,演讲时刘强东的语气太过正式了,和直播带货有点画风不搭。

团队无奈把刘强东“抓”到镜头前,录了30分钟的音视频,让他闲聊自己的经历什么的。

用这段音频为底提取出声学特征,就能通过已经被喂了5万小时语音数据训练的言犀语音大模型合成出人工语音。

不过据量子位了解,京东云言犀大模型团队的最新战绩,是使用6秒素材复现具体某个人的声音

团队成员还分享了其他一些关于AI数字人背后的事:

训练过程中,主赛道锚定人物向,因此不管是从数据的采集、清洗和各方面都做了精细化聚焦。

推理实现方面,除了模型代码压缩、量化等常规操作,还对INT4和INT8进行了精度调改。

团队下一步计划,是把语音、视频生成两块综合到一起。

当然,另一部分挑战是尝试用非常小样本或零样本学习的方式就能抓住真人本尊的特点,继而生成惟妙惟肖的数字人。

“采销东哥是京东数字人平均水平”

京东云言犀负责人表示,其实京东内部对数字人有一个分级。

第一级的数字人效果,可以做真人的补充工作,处于向真人看齐阶段。

第二级数字人可以媲美真人,真人不在,也可以承担重要场合、重要时间的主播工作。

并且播出后,会有人分不清主播是真是假——从这个角度来说,图灵测试应该算是通过了。

不过,虽然在形象、表情、语音、动作复刻尚佳,但是本尊的深度思想,大模型数字人还没有办法1:1同步。

到了第三阶段,本尊和数字人之间不是替代关系,更像是真人有了个数字分身,能够真正深度抓住本尊的思想、文化、知识背景、一些理念。

而且,京东自家直播间有一个120s战斗

简单说就是直播时,如果用户在120s之内都不觉得眼前的数字人让自己别扭,就会跨过恐怖谷效应,接受这个数字人,看他的展示、听他的解说。

而且看到120s,因为对主播产生了信任,往往很大概率会下单。

“目前来看,数字人直播带货有很大机会会成为一个大的爆点。”京东云言犀负责人解释道,“主要是内容层次达到了新的水准,大家的接受度和信任度已经过了关键点了。”

说回“采销东哥”,他现在几乎能很完美地被生成120s以上的形象,并且足以以假乱真。

也就是说,“采销东哥”现在处于京东数字人分级里的第二阶段,这也是京东云言犀数字人的平均水平。

团队还提到,其实目前AI大模型数字人大规模商用,技术已经不是难点了。

难点是什么呢?是主播个人的形象要跟整体调性相匹配,在选品、互动方面还需要下很多功夫。

One More Thing

聊着聊着,一个有趣的问题被抛出来。

问,未来在京东直播间,有没有可能诞生一个类似于董宇辉的AI数字人超级主播?

京东云言犀负责人和算法总监相视一笑,说:

(这件事)技术上是有可能的,但在伦理和感情上不一定能成立
比如很多丈母娘喜欢董宇辉,是因为这个人有很实在的特质,很文雅,有知识。
我不知道在伦理上到底之后会怎么解决……

— 联系作者 —

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
早鸟报|刘强东数字人将开启直播首秀;抖音有效粉丝数少于500的本地生活达人不能视频带货;华为官宣p系列品牌升级为pura...练字--赤壁赋刘强东分身直播带货,给大家“开了个会”AI刘强东带货,能给数字人带来商业化吗?刘强东数字人今天开启直播首秀;华为P70改名为Pura70;保时捷中国总裁首度回应“米时捷”……最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍刘强东AI数字人首场直播成交额超5000万元;奥特曼:通用人工智能不该被秘密构建,GPT-6将成通用工具丨AIGC日报未央播报 | 中国10亿参数规模以上大模型数量已超100个 Swift将推出央行数字货币互联平台最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4宇宙人(1484期)同比增长5.3%;国家天文台人工智能工作组发布大模型“星语3.0”​;刘强东数字人今天将开启直播首秀刘强东亲自下场,京东直播有救了?狗引儿【长篇】(八)刘强东数字人“分身”开启直播首秀丨大公司动态观潮周报 | 华为Pura 70系列正式首销;刘强东AI数字人首场直播整场成交额超5000万刘强东数字人今天开启直播首秀;保时捷总裁高情商回应「米时捷」;Vison Pro 版淘宝上线 | 极客早知道刘强东AI数字人首场直播:观看量超2000万,成交超5000万刘强东数字人将开启直播首秀;特斯拉全球裁员10%约1.4万人;保时捷中国总裁首度回应“米时捷”;理想辟谣车内摄像头拍摄不雅照片93、长篇家庭伦理小说《嫁接》第二十五章 旧爱新欢(2)大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了保时捷中国总裁首度回应“米时捷”;特斯拉被曝全球裁员超10%;刘强东数字人将开启直播首秀;华为P系列更名为“Pura”丨邦早报保时捷中国总裁回应「米时捷」/华为 Pura 70 系列官宣/刘强东 AI 数字人今日直播全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报刘强东数字人首播破纪录!经销商:华为 Pura 70 现货已到/极越汽车回应员工购买小米汽车被开除/刘强东数字人直播成交额超 5000 万开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有刘强东AI数字人首场直播:不到1小时观看量超2000万,整场成交额超5000万!刘强东数字人今天直播首秀;特斯拉被曝裁员1.4万人 | 金错刀日评美股基本面 - 2024_02_24 * 晚报 * 一文速览“股神”最新金句,巴菲特股东信精华版来了!。伯克希尔Q4净利润同比“刘强东”直播常态化,数字人成本低至真人直播的10%雷军直播否认是“爽文男主”,单场直播涨粉超88万;刘强东数字人开启京东直播首秀,成交额超5000万 | 一周简讯庆祝圆寨和星坛春晚圆满成功刘强东AI数字人首播,30分钟观看破千万;雷军回应爽文人生:不是高考状元、没有40亿;特斯拉大裁员:员工对赔偿满意|AI周报一周资讯|雷军30天全网涨粉超450万;刘强东数字人京东直播首秀;遥望科技布局出海业务...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。