独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元
作者|房晓楠
编辑|陈彩娴
近日,关于字节跳动大语言模型研发技术专家杨红霞离职创业的事情,坊间传得沸沸扬扬。
此前,杨红霞为大家所熟知的是,她曾是阿里达摩院万亿参数规模多模态预训练模型 M6 的技术负责人,参与过北京智源研究院主导的“悟道”大模型项目,而该项目是中国最早的大模型项目之一。
在字节跳动的大模型队伍中,杨红霞的学术气质较为突出。据 AI 科技评论梳理,字节大模型团队的核心成员主要是在字节抖音、西瓜等产品内部成长起来的骨干。
2007 年,杨红霞从南开大学本科毕业后,赴杜克大学攻读博士,师从著名统计学家 David Dunson,著有超过 100 篇杰出学术论文。
博士毕业后,杨红霞入职 IBM 全球研发中心任 Watson 研究员,之后又加入雅虎公司,担任首席数据科学家。
2016年,杨红霞回国加入阿里达摩院,就职期间杨红霞的职级为 P8,曾任达摩院智能计算实验室主任,作为技术负责人,一路见证了 M6 从百亿、千亿进化到万亿参数量规模。
去年年初,杨红霞加入字节跳动 AI Lab,作为 AML(Applied Machine Learning,机器学习系统)团队的负责人,带领一支大约 40 人的团队。
如今,杨红霞身上又多了一层创业者的身份。
今年以来,通用大模型格局逐渐收缩,落地应用成为主旋律,越来越多的目光开始瞄向行业、端侧大模型。而端侧模型,主要应用在手机、电脑、智能网联汽车等终端设备上,具有成本低、移动性强、数据安全等优势,正逐渐成为行业追逐的热门话题。
今年 2 月,清华 THUNLP 走出的 AI 公司——面壁智能推出 20 亿参数的开源端侧模型 MiniCPM;
4 月,商汤推出 1.8B 参数规模的 SenseChat-Lite 版本端侧⼤模型;
5 月,来自斯坦福大学的 NEXA AI 团队发布了全球首个参数量小于 10 亿的多模态 AI Agent 模型 Octopus V3,在函数调用性能上远超同类模型,可与 GPT-4V+GPT4 相媲美,更是将端侧模型卷到新高度。
据了解,NEXA AI 团队创始人兼首席科学家陈伟(Alex Chen),正在攻读斯坦福大学博士学位,拥有丰富的AI研究经验;联合创始人兼首席技术官李志远,毕业于斯坦福大学,并在 Google 和 Amazon Lab 126 实验室拥有 4 年端侧 AI 的研发经验。
不管是手机,还是电脑,或者汽车,在人们的生活中都扮演着重要角色,可见,端侧大模型前景广阔,在如何更好地训练出小且好用的端侧模型的新行业命题下,大有可为。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
微信扫码关注该文公众号作者