Redian新闻
>
原达摩院大模型 M6 带头人杨红霞加入字节,语言生成大模型再迎新玩家

原达摩院大模型 M6 带头人杨红霞加入字节,语言生成大模型再迎新玩家

科技

字节在大模型争夺战应占有一席之地。

作者 | 黄楠

编辑 | 陈彩娴

字节入场语言生成大模型,国内大厂在大模型领域的竞争又热闹了!

近日有消息称,原达摩院大模型 M6 带头人杨红霞已加入字节 AI lab,参与语言生成大模型的研发,杨红霞在团队中处于领导地位,直接向字节跳动副总裁杨震原汇报。

去年9月初,杨红霞从阿里达摩院离职,彼时她向 AI 科技评论表示,离开是出于个人家庭原因,而非行业问题,达摩院大模型 M6 团队的后续工作不受影响。

AI科技评论也向当事方进行了询问,但截止发稿为止,尚未收到进一步的确认信息。AI科技评论也会继续关注本次变动的后续相关信息,也欢迎知情人士补充。(AI科技评论将持续关注AI大模型领域动态,欢迎添加本文作者微信:finfl26est,互通有无。)



1

原阿里 M6 带头人杨红霞

杨红霞 2007 年本科毕业于南开大学,获统计学学士学位。之后她去往美国杜克大学统计科学系攻读博士学位,师从 David Dunson 教授。

博士毕业后,杨红霞先入职 IBM 全球研发中心任 Watson 研究员,后又加入雅虎公司,担任首席数据科学家。

2016 年,杨红霞结束了在美近 10 年的留学及工作生涯,回国后加入阿里巴巴达摩院智能计算实验室,大模型 M6 是杨红霞在达摩院任职期间最突出的成就。

杨红霞

2021 年 3 月,阿里达摩院首次发布 M6,英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer,6个 M,简称 M6,是国内首个千亿参数多模态大模型。

同年6月,杨红霞团队又发布万亿参数的 M6,仅使用 480 块GPU,就能实现万亿参数体量的智能运算。相比原来的百亿参数模型,功耗降低 8 成,效率提升 11 倍。仅过4个月后,M6 又在当年 10 月再次突破极限,杨红霞团队使用 512块 GPU,在 10 天内训练出 10 万亿模型。与大模型 GPT-3 具有同等参数规模,但能耗仅为其 1%。

大模型 M6 拥有多模态、多任务能力,其目标是打造全球领先的具有通用性的人工智能大模型,尤其擅长设计、写作、问答,在电商、制造业、文学艺术、科学研究等领域有广泛应用,通过将不同模态的信息经过统一加工处理,沉淀成知识表征,为各个行业场景提供语言理解、图像处理、知识表征等智能服务。

相较于其他 AI 模型,大模型 M6 更低碳高效,提升了超大规模预训练模型的资源利用率与训练效率,沉淀大模型高效训练的能力。杨红霞曾在接受媒体采访时表示:“多模态预训练是下一代人工智能的基础,M6 模型实现了训练效率和生成精度等多项突破,是当前众多中文多模态下游任务最优模型。”

在达摩院期间,杨红霞带领阿里巴巴达摩院 M6 团队致力于认知智能方向,研发了 AliGraph、M6、洛犀等较为有影响力的人工智能开源平台和系统,发表顶级会议、期刊文章超过 100 篇,美国和中国专利超过 30 项。她曾带领团队获 2019 世界人工智能大会最高奖卓越人工智能引领者(Super AI Leader,简称 SAIL 奖),2020 年国家科学技术进步奖二等奖和 2020 年杭州市创新领军团队。2022年6月,杨红霞入选 2022 福布斯中国科技女性50榜。

去年9月初,由于个人家庭原因,杨红霞从阿里巴巴达摩院智能计算实验室离职。



2

字节加入语言生成大模型之战

此前 ChatGPT 带动的热潮中,百度率先发布“文心一言”,正式打响了国内科技大厂的较量。

相较于此前在大模型上有布局的企业,例如百度“文心”、阿里“通义”、华为“盘古”等,字节在这场大模型之战中显得略为低调。

此前有媒体报道称,字节跳动在大模型上已有布局,主要在语言和图像两种模态上发力。其中,语言大模型团队组建于今年,团队规模在十数人左右,主要探索方向为同搜索、广告等业务线的结合。

另一名知情人士向 AI 科技评论透露,相比起其他大厂的大张旗鼓,字节目前研究大模型的人并不算多。此前在马维英担任字节跳动副总裁兼人工智能实验室主任期间曾主推人工智能赋能内容创作和视频内容的理解,但当时内部 AI 和推荐引擎是分开的;字节之前离开的另一位领军人物王崇则专长于机器学习,此前是字节推荐引擎负责人。

另外有知情人士称,国内字节等大厂做 ChatGPT 的模型,目前学习架构大部分采用大模型教小模型的方式,小模型学习到大模型能力的百分之几,能解决大部分问题后再慢慢升级。

ChatGPT 不是终点,在这场关于通用人工智能的的角逐中,数据和场景成为了竞争的关键,从这个角度上看,字节有丰富的多模态数据,又有娱乐、学习、电商等丰富的应用场景。

此前王小川曾对 AI 科技评论表示,字节在这场争夺战应占有一席之地,“如果能够出现一个产品可以理解视频,基本就立于不败之地了。”

杨红霞常年深耕在产业化大规模落地的人工智能相关技术,她的加入将弥补字节在语言生成大模型领军人才的空缺,而她此前展示出的在提升效率、降低能耗等方面的杰出工程能力,也将对字节语言生成大模型的研究创新、场景应用落地等方面带来重要影响。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
图集丨学习先进理念 参观特色产业——欧美同学会助力乡村振兴致富带头人专题培训班教学掠影OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用阿里达摩院决策智能实验室招聘全职/博士后/实习生阿里达摩院开源:半监督学习框架Dash,刷新多项SOTA!Epic喜加三!Steam叙事游戏盛典开启!Xbox总裁向购买《红霞岛》玩家致歉!完成Pre-A+轮融资,语言大模型企业「澜舟科技」推出孟子MChat可控大模型|36氪首发AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架阿里达摩院自动驾驶负责人陈俊波离职,进军户外清洁机器人!北京市数字人基地与阿里巴巴达摩院人工智能开源社区“魔搭”签署战略合作协议MLNLP学术Talk第十九期 | 余海洋、黎槟华@阿里达摩院:基于知识的下一代对话:新任务、新数据、新榜单AAAI 2023 Oral | 图像质量堪忧干扰视觉识别!达摩院提出RTS:鲁棒性特征建模框架马克谈天下(358) AI作图谱曲贺新年Siri太笨,根本打不过ChatGPT!苹果加急测试语言生成AI达摩院算法团队招聘(实习/博后/全职):机器学习算法工程师,AI for Time Series与AIOps方向阿里50亿参数AI画画模型火了!将图像拆分再自由重组,达摩院副院长率队打造阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl揭秘阿里达摩院类ChatGPT核心团队人才地图|36氪独家新年好校招 | 阿里巴巴达摩院-语言智能实验室-应用算法-智能司法组令人心动的AI offer(七):科大讯飞、旷视、达摩院、上海人工智能实验室等春招补录、社招与实习生奥威尔在西班牙的奇幻冒险——Homage to Catalonia读后感达摩院开源半监督学习框架Dash,刷新多项SOTA总会丨拓宽致富渠道 促进乡村振兴——欧美同学会助力乡村振兴致富带头人专题培训班综述年终祭祖就地取材的年夜饭北京/杭州内推 | 阿里达摩院开放视觉智能实验室招聘研究型实习生/23届春招北京内推 | 阿里达摩院招聘大型语言模型(LLM)应用方向实习生达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力大牛动态:阿里达摩院认知智能大牛跳槽字节:加入AI Lab汇报副总裁杨震原AAAI 2023 | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架粗制滥造?《红霞岛》首发扑街,微软:不背锅!《孤岛惊魂3》简中语言被移除!阿里版ChatGPT已进入测试!中文聊天截图曝光,达摩院出品阿里达摩院春招 & Research Intern 招聘阿里巴巴达摩院机器智能团队招聘3D方向研究实习生【就业】上海市浦东新区人民医院招聘学科带头人、学科业务骨干、青年医学人才近百人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。