MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型
越来越多的工作证明了预训练语言模型中蕴含着丰富的知识,针对不同的任务,用合适的训练方式来撬动预训练语言模型,能更好地提升模型的能力。在 Text-to-SQL 任务中,主流的方法主要是基于 SQL 语法树的 Encoder-Decoder 模型,可以确保生成的结果一定符合 SQL 语法,但是需要针对 SQL 语法进行特殊设计。最近也有一些关于 Text-to-SQL 的研究是基于生成式语言模型,可以有效地继承预训练语言模型的知识和能力。
在 2 月 7 日至 2 月 14 日于华盛顿举办的 AAAI 2023 会议上,广东外语外贸大学、网易互娱 AI Lab 和哥伦比亚大学的研究者在 AAAI 2023 发表的《MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL》中,为了降低对基于语法树的依赖,更好地挖掘预训练语言模型的能力,研究者在预训练 T5 模型的框架下,提出了一个两阶段的多任务 Text-to-SQL 模型 MIGA。
MIGA 分为两阶段的训练过程。在预训练阶段,MIGA 使用与 T5 相同的预训练范式,额外提出了三个与 Text-to-SQL 相关的辅助任务,从而更好地激发预训练语言模型在目标任务上的能力。在微调阶段,MIGA 针对多轮对话和 SQL 中容易存在的错误传递问题,在训练过程中对历史 SQL 进行扰动,使得生成当前轮次的 SQL 效果更加稳定。MIGA 模型在两个多轮对话 Text-to-SQL 公开数据集上表现优于目前最好的基于语法树的模型。
机器之心最新一期线上分享邀请到了广东外语外贸大学在读硕士付颖雯,为大家分享他们近期工作 MIGA。
分享主题:MIGA:基于生成式预训练语言模型T5的Text-to-SQL模型
分享嘉宾:付颖雯,广东外语外贸大学三年级硕士研究生,导师为蒋盛益教授,网易互娱 AI Lab 成员。目前主要研究方向为自然语言处理中的文本生成和低资源命名实体识别。
分享摘要:本次分享将讲解论文《MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL》。本次分享针对多轮对话 Text-to-SQL 任务,分析了现有方法的优劣并探究生成式预训练语言模型 T5 在该任务上的应用。此外,还将探讨可能的未来方向。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/miga
2)论文链接:
https://arxiv.org/abs/2212.09278v1
微信扫码关注该文公众号作者