Redian新闻
>
腾讯做大模型:要拼技术细节、用内部业务“磨刀”

腾讯做大模型:要拼技术细节、用内部业务“磨刀”

公众号新闻

作者 | 褚杏娟

“腾讯混元大模型 从第一个 token 开始从零训练。”腾讯集团副总裁蒋杰说道。9 月 7 日,腾讯正式对外开放了全链路自研的通用大模型——混元大模型,这也意味着腾讯正式加入了“百模大战”之中。

在已经有首批 8 家企业机构的大模型产品通过《生成式人工智能服务管理暂行办法》备案准备正式上线开放后,腾讯的通用大模型才刚刚发布,这个时间并不算早。那么,腾讯的大模型之路将如何走下去?

做大模型要“拼细节”

“混元”不是腾讯推出的第一个大模型。从 2018 年开始探索大模型相关技术,腾讯先后推出了多个千万 / 亿参数大模型:2021 年 -2022 年推出了多个千亿和万亿参数规模的大模型。

腾讯混元大模型平台架构、模型、算法能力等整个体系都是纯自研的,而构建腾讯混元的技术能力都得益于这些年大模型能力的积累。像今天的锯齿状注意力、探真等都是技术循序渐进的产物。

“现在国内外有很多开源的大模型,很多企业也是基于开源模型来做,但是如果不从头自研的话,就没办法完全掌握这个技术。”蒋杰说道。

腾讯对大模型的期望是先给企业内部业务带来突破,这要求大模型必须更好融入到腾讯的技术栈中,但很多开源架构并不适合腾讯业务场景。比如,幻觉是每一个大模型厂商都会面临的重要问题,业内普遍会用知识图谱甚至搜索外挂让大模型的检索支持能力变得更强,但是这些方式不适用腾讯的场景占比很高,于是腾讯使用了自研的“探真”技术来降低幻觉出现的比例。

混元大模型目前还是聚焦在国内市场,中文创作是其主要攻破的能力之一,支持文学创作、文本摘要、角色扮演等。通用大模型的逻辑推理能力非常关键,而大模型如何可靠地执行是腾讯最关注的。

混元大模型拥有超千亿参数规模,预训练语料超 2 万亿 tokens。腾讯的内容产品为混元大模型提供了大规模、高质量、多样化的语料库,混元大模型能从中学习到各类应用场景中丰富的语言知识和语境理解能力。

面对海量数据,腾讯使用了 AngelPTM 训练框架,优化算法,改进了注意力机制。而在逻辑推理方面,腾讯则使用了 AngelHCF 推理框架,开发了思维链(Chain-of-Thought,CoT)新算法。腾讯表示,通过自研机器学习框架 Angel 使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

注:思维链指的是一系列有逻辑关系的思考步骤形成一个完整的思考过程,用的是离散式 token,能自动构建问题、推理步骤和样例。但思维链必须在模型规模足够大时才能涌现。

在蒋杰看来,业内做强化学习的方法大体相似,腾讯要做的就是“拼细节”。“未来几个头部厂商大模型的评分可能仅仅是 1 分、2 分的差距,这个厂家版本高 1 分,另外厂家的下一个版本就会比它再高 1 分,就是这样一个不断博弈和循序渐进的过程。而大家投入的资源不一样、抠的细节不一样,大模型的差异才会最终显露出来。”

先做内部业务的“倍增器”

在通用大模型上,腾讯确实走得不急。腾讯强调,研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中。腾讯 6 月份发布行业大模型后,一直努力将能力拓展到更多领域,腾讯内部的海量业务场景也成了混元大模型的“磨刀石”。

众所周知,腾讯业务特别广泛,混元大模型能在内部各种场景上很好地应用就很不容易。比如,to C 的腾讯会议、腾讯文档在使用大模型时就有很大的差异。混元大模型的文字总结能力能与文档环境天然很好地结合,但会议场景强实时交互,需要会议团队和混元团队一起探索如何将混元大模型的基础指令理解能力、文字总结能力与会议内容生成结合起来。

“像会议、文档这样的场景,单纯将一个大模型直接融合进去短期内不一定能够给业务带来很大提升,因此一定要针对具体的业务需求做专门优化和提效,才能达到更好的效果。”腾讯机器学习平台部副总经理王迪说道。

在腾讯看来,提效是大模型更有商业价值的地方,腾讯希望混元大模型成为业务的“倍增器”。

目前,腾讯内部所有的应用都会基于混元大模型做智能化研发,混元大模型将作为基础设施去支持腾讯的各种产品和应用能力。腾讯会议 基于腾讯混元大模型打造了 AI 小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。混元大模型支持数十种文本创作场景,在腾讯文档推出的智能助手功能中已有应用。

与之前技术产品的商业化路径相似,腾讯大模型也会先服务腾讯内部业务,然后再通过腾讯云对外开放,服务外部客户。

结束语

在蒋杰看来,大模型的天花板现在还没有完全碰触到的技术体系和演进上,行业不仅需要技术突破,还需要语料的完整度、数据的标注能力、后续的纠错能力等,单点的技术突破无法带来大模型的最终效果。

“未来,混元大模型还要做更多的数据标注、更多的框架、训练更多的数据,这才是我们团队工作的真正核心。”蒋杰说道,“腾讯混元永远在路上。”

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

AI 大模型热潮来袭,看机密计算如何应对敏感数据安全挑战

号称比 Python 快 68000 倍的 Mojo 语言正式发布!Rust 能否与之匹敌?

小米一开源项目被批“三无”,项目导师回应;Ruby on Rails之父将TypeScript从Turbo框架中移除 | Q资讯

大模型之战,腾讯来了

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型当 Apache Doris 遇上大模型:探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台一手实测腾讯混元大模型:重逻辑降幻觉,鹅厂自家应用已加持【周末去哪玩】9/30-10/01 | 渔人码头45周年庆、小意大利节、冲浪节、马赛克节、中秋节、黑眼豆豆节、橡木啤酒节、两轮节崔哥天天侃 | 华为新手机横空出世,技术细节向世界传递了什么【周末去哪玩】10/21-10/22 | 电车之舞、风筝节、慕尼黑啤酒节、家庭万圣节、巧克力节、火车阅读派对、腾讯混元大模型开放文生图;微软AI投资重心或转向应用和业务;国产大模型10月榜单公布丨AIGC大事日报【周末去哪玩】7/22-7/23 | 中国城舞狮节、半岛卡车展、儿童音乐节、免费旋转木马日、旧金山马拉松、日本城街舞节、烟花秀【周末去哪玩】8/12-8/13 | 中国城舞狮节、湾区夏威夷节、菲律宾游行节、历史日、街区派对、世界音乐节、湾区苹果节、返校节文末送书 | 深度生成模型:详解AIGC模型的技术基石,稳步迈进通用人工智能【周末去哪玩】10/28-10/29 | 华人街万圣节、沙堡经典赛、闹鬼飞机博物馆、秋日节、亡灵节、街区派对、万圣节骑行……包凡失联7个多月后,华兴资本公告代理CEO;库克抛售51万股苹果股票,进账4100万美元;特斯拉FSD技术细节曝光丨邦早报排骨节、美食节、免费逛省立公园...周末遛娃走花路正确打开方式【周末去哪玩】9/16-9/17 | 希腊美食节、美洲嘉年华、丰收历史节、火车日、柯基大会、慕尼黑啤酒节、腾讯推出混元大模型,已接入微信搜一搜、腾讯会议等 50 多个业务及产品小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型【周末去哪玩】8/5-8/6 | 书法&古筝表演、日本町街头集市、世界狗狗冲浪锦标赛、意大利家庭节、昆虫嘉年华、海事节、扎染派对听伯克利博士给你讲解Llama 2的技术细节全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens长周末多伦多去哪儿玩?加勒比狂欢节、排骨节、音乐节...历史小说《黄裳元吉》第一百一十五章 情怀【周末去哪玩】8/26-8/27 | 全国电影院日、旧金山市政中心嘉年华、中元节、黎巴嫩节、越南社区节、夏日节、八月节、【周末去哪玩】10/07-10/08 | 舰队周飞行秀、广场马戏团、秋日节、素食节、沙球节、中东美食节、非洲美食节……阿里云通义千问开源;腾讯混元大模型开始应用内测;马斯克或从OpenAI买入域名Ai.com丨AIGC大事日报Llama2技术细节&开源影响【周末去哪玩】9/9-9/10 | 骑行动物园、花与钢琴、中秋节、艺术&红酒节、沙滩嘉年华、硅谷秋日节、苹果节、公交博物馆开放日车年检【长周末去哪玩】9/2-9/4 | 免费钓鱼日、希腊节、苏格兰高地节、国王山艺术节、香港节、铁路博览会、巴西独立日舞蹈节、音乐节、电影之夜!周末去哪玩 7/29~7/30 第422期后院Lily情·2023双林奇案录第三部之歌星之死: 第四节回国见闻 – 汽车限行【周末去哪玩】8/19-8/20 | 模型车周末、海岸艺术&趣味节、东湾社区派对、大丽花大赛、免费舞蹈节、儿童音乐会、迷你高尔夫通用大模型转向行业大模型:腾讯云、华为云们的下一个战场
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。