直播预告 | 阿里达摩院算法研究员黄斐:又快又好的非自回归文本生成
报告介绍
当前的主流语言模型均采用了从左到右逐词生成的自回归生成方式,但这种方式依赖于迭代的预测过程,显著拖慢了生成速度。近年来,一种新的生成范式,非自回归生成模型,受到了学界的广泛关注。这类模型采用并行预测整个句子的方式,大幅加速了生成过程。本论文基于一种有向无环图的非自回归生成方式进行了预训练,所得到的模型能实现又快又好的文本生成效果。实验表明,在下游微调后,该模型在多个文本生成任务中均超越了等参数量的自回归生成模型,并取得了17倍的生成速度提升。
黄斐
阿里达摩院通义千问大模型算法研究员
黄斐,阿里达摩院通义千问大模型算法研究员,清华大学计算机系交互式人工智能CoAI实验室博士毕业。2013年获全国高中生信息学奥林匹克竞赛(NOI)金牌,并在次年保送进入清华大学计算机系,本科毕业后直博,师从黄民烈老师。2023年博士毕业后加入阿里达摩院通义千问团队。主要研究方向为自然语言生成,非自回归文本生成。主要成果包括:以第一作者、共同一作身份在ICML、ACL、EMNLP、TACL等顶级国际会议或期刊上发表论文6篇,包括3篇CCF-A类论文,2篇CCF-B类论文;申请专利2项,与导师合作著有《现代自然语言生成》一书。博士期间的主要工作DA-Transformer能在保持文本生成质量不变的同时,大幅加速文本生成速度,被微软亚研院等多家团队列为非自回归生成领域的代表性工作,获得了大量关注。
扫码下方二维码
进入直播间观看
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章