半年涨粉1000万!揭秘快意大模型在短视频互动场景中的大规模应用实践
演讲嘉宾 | 刘澈 快手大模型与多媒体技术部智能交互团队负责人
在 QCon 北京 2024 大会上,快手大模型与多媒体技术部智能交互团队负责人刘澈,根据自己在快手的实践经历,发表了题为《快意大模型在短视频互动场景的应用探索》的演讲,其中重点分享了快意大模型微调阶段的数据工程以及对齐技术,以及基于快意大模型在快手短视频互动场景中打造的 C 端智能助理 —— AI 小快的相关研发经历。
本文经刘澈老师基于演讲内容整理并授权 InfoQ 发布。
语言是沟通之桥,自计算机诞生之时,人类便一直致力于研究和实践如何赋予机器类似人类的沟通和互动能力。长久以来,这一领域充斥着挑战,然而,随着大模型技术的出现和发展,这一难题得到了革命性的突破。
大模型的发展可以追溯到2018年。在Google提出Transformer模型架构后,研究者们引入了Masked Language Model任务,来基于海量数据对Transformer进行预训练,成功开发出BERT模型,并在GLUE等自然语言理解任务榜单上取得显著提升。之后,预训练逐渐向具有更深、更宽的超大规模神经网络方向前进。2020年,OpenAI推出了GPT-3,拥有高达1750亿个参数,通过Scaling Law的方式让模型能力有了显著提升。在2022年底,OpenAI进一步推出了ChatGPT,这是基于预训练模型进行指令微调(SFT)和基于人类反馈的强化学习(RLHF)对齐的版本,成功激发了超大规模预训练模型中的语言知识,增强了模型在各种任务上的适应性,大幅提升了AI模型在人类指令执行和对话互动方面的能力。
ChatGPT发布后,国内各互联网公司纷纷布局,在2023年一年中先后发布数十个自研AI大模型,标志着人工智能技术的竞争正式进入了一个新的阶段。这些大规模模型体现出各公司在AI领域的深入研究力量,未来越来越多的AI技术将会更深地融入到人们的日常生活中。无论是常识问答、阅读理解、角色扮演,还是代码编写、数学运算、逻辑推理等应用领域,大规模模型都已经展现出其庞大的应用潜力。
面对ChatGPT这一划时代的技术革新,快手迅速作出反应,开始积极布局大模型领域,制定全新的AI战略。首先,在AI算力基建方面,快手着手构建了千亿参数级的大模型训练及推理基础设施,并通过Infra架构层面的优化,将模型算力利用率(MFU)提升至业界领先水平;其次,在数据方面,依托短视频和直播场景,快手构建了海量的文本和多模态数据,涵盖了百科、新闻、书籍、评论、菜谱、论文、问答社区、博客等各类内容,并对这些数据进行深度清洗,确保训练超大规模语言模型具备足够高质量的tokens。经过1年的研发周期,快手正式推出了自研“快意大模型”(KwaiYii),在MMLU/C-Eval/GSM-8K/HumanEval等榜单上取得领先结果,并开启了短视频场景下大模型落地时代。
快意大模型沿用了Transformer decoder-only技术架构,设计有13B、66B、175B三种参数规模,在每个参数规模下包含预训练模型(KwaiYii-Base)和对话模型(KwaiYii-Chat)两个版本。通过在4T+高质量tokens上进行预训练和百万级高质量指令数据上进行对齐,快意预训练模型和对话模型已在行业权威评测榜单上取得显著领先的效果,其中175B版本模型的表现已接近GPT-4。
人格化能力的情感陪伴机器人
AI 小快实用案例
AI小快具备这样能力的原因,源于快手快意大模型在情感陪伴领域的实践成果。众所周知,ChatGPT/GPT-4等通用大模型落地于互动娱乐场景时,会存在着风格机械、答案刻板的问题,因此难以和用户形成良好的互动共鸣。为了让大模型学会“说人话”,并具备用户喜闻乐见的人格形象,快手AI团队在类人对话方向深入探索,从人物客观背景信息、人物风格化形象呈现、内在人格刻画三个层面,由表及里构建了数万级的人物形象卡片及训练数据,进行快意情感陪伴大模型的微调,从而显著强化了模型在类人对话方面的表现。目前快意情感陪伴大模型已在类人对话权威评测榜单CharacterEval取得总分第一的结果,显著优于情感陪伴赛道同类产品,如Baichuan-NPC,MiniMax,通义星辰等。
大模型技术正在引领行业发展创新浪潮。那么,如何让大模型技术与行业深度融合?如何通过大模型技术为各行各业提供更加智能化的解决方案?在金融、法律、医疗、教育、政府等各行业的实践场景中,又有哪些大模型落地经验?「AI 前线」特别为您精选了刚刚结束的 AICon 全球人工智能开发与应用大会上的精彩演讲,并经过嘉宾授权将演讲的精彩 PPT 提供给大家。关注「AI 前线」,回复关键词「行业创新」即可免费获取。
本届 ArchSummit 会议上,重点聚焦 AI 大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣,可点击「阅读原文」查看更多详情。目前会议进入 9 折购票阶段,可以联系票务经理 17310043226 , 锁定最新优惠。
今日荐文
禁令再升级!拜登政府已不想让中国人在美从事AI工作了,套壳大模型的公司也危险了
老黄急了!为跟华为抢业务,英伟达也得低头降价,但大家已经不买账了?
13分钟颠覆传统电脑!微软Copilot+ PC 抢装GPT-4o、叫板苹果,网友不买账:用大炮打蚊子
你也「在看」吗?👇
微信扫码关注该文公众号作者