Redian新闻
>
全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens

公众号新闻

作者 | 褚杏娟

9 月 7 日,2023 腾讯全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生正式发布全链路自研的通用大语言模型:混元大模型。混元大模型具备强大的中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

汤道生表示:“以大模型生成技术为核心,人工智能正在成为下一轮数字化发展的关键动力,也为解决产业痛点带来了全新的思路。大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

据悉,腾讯混元大模型参数规模超千亿,预训练语料超 2 万亿 tokens,当前版本的知识截止到 2023 年 7 月。混元大模型基于 Transformer,首先进行大规模自监督预训练,之后进行有监督精调,最后通过强化学习进行优化,同时具有一定调用外部插件工具的能力。

混元大模型推理能力展示

腾讯集团副总裁蒋杰表示,开源大模型并不适应腾讯海量高并发场景,自研才能完全掌握技术内核,将大模型更好地融入到腾讯的技术栈中。据悉,混元大模型以腾讯强大的算力基础设施为基础,腾讯掌握从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术,包括从大规模、高质量、多样化的语料库,到创新的大模型算法,再到自研 Angel 机器学习框架和创新性的训练方法等研发能力。

针对大模型容易“胡言乱语”的问题,腾讯通过自研“探真”算法进行事实修正,让混元大模型的幻觉相比主流开源大模型降低了 30%-50%;通过强化学习的方法,让模型学会识别陷阱问题,对安全诱导问题的拒答率提高了 20%;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,强化模型对问题拆解和分布思考的趋向,让大模型能够像人一样结合实际的应用场景进行推理和决策。此外,腾讯还自研了机器学习框架 Angel,使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

混元大模型测评数据

蒋杰表示,混元大模型已经成为腾讯的业务底座。目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ 浏览器等 50 多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

混元大模型在腾讯文档的应用示范

据了解,混元大模型将作为腾讯云 MaaS(Model-as-a-Service)服务的底座,客户不仅可以直接通过 API 调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

据悉,从 2018 年开始,腾讯开始探索大模型相关技术,先后推出了多个千万 / 亿参数大模型:2019 年,腾讯推出了广告推荐 MoE 大模型,单模型参数超千亿;2021 年,腾讯推出了千亿规模的 NLP 大模型;2022 年,腾讯推出万亿参数的 NLP 稀疏大模型。


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSSiPhone将放弃lighting接口,全面拥抱Type-C百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目最新综述!预训练大模型用于医疗健康领域的全面调研8张3090,1天压缩万亿参数大模型!3.2TB骤降至160GB,压缩率高达20倍预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练GPT-4内幕大泄露!1.8万亿巨量参数,13万亿token训练,斥资6300万美元iOS 17 再次调整「结束通话」按钮位置 / 腾讯透露通用大模型进展 / 视觉中国最新回应拜登政府发布AI行政命令;国内超一半大模型公司跑在阿里云上;ChatGPT被曝参数规模为200亿丨AIGC大事日报性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架怀特兄弟飞机在大兴机场试飞英伟达,将全面拥抱Chiplet?传滴滴造车VP创业大模型;澜舟科技推出400亿参数通用大模型;商汤AIGC相关收入增长670.4%当 Apache Doris 遇上大模型:探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台《大宅门》&《三生石下》养老理财规模超千亿,你会买吗?手机大模型爆发:vivo 发布自研蓝心大模型,参数追赶 GPT-334B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%高通发布骁龙 X Elite 和第三代骁龙 8,全面拥抱 AIGC融资25亿、对标GPT-4V,适配国产芯……关于通用大模型的未来,智谱全交待了思绪在小雨中流连达摩院加入AI抢人大战;薇娅公司发布AI数字人直播业务;中国电信正深研通用大模型丨AIGC大事日报百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元第五章 列宁主义救中国 (3)通用大模型转向行业大模型:腾讯云、华为云们的下一个战场爬藤到底爬的是什么ICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架力压苹果英特尔,全面拥抱AIGC,高通发布骁龙X Elite和第三代骁龙84000亿流量扶持、预计全年变现超千亿,详解快手还有哪些新机遇腾讯正式发布混元大模型昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源【提示】中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。