Redian新闻
>
MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型

MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型

公众号新闻

越来越多的工作证明了预训练语言模型中蕴含着丰富的知识,针对不同的任务,用合适的训练方式来撬动预训练语言模型,能更好地提升模型的能力。在 Text-to-SQL 任务中,主流的方法主要是基于 SQL 语法树的 Encoder-Decoder 模型,可以确保生成的结果一定符合 SQL 语法,但是需要针对 SQL 语法进行特殊设计。最近也有一些关于 Text-to-SQL 的研究是基于生成式语言模型,可以有效地继承预训练语言模型的知识和能力。

在 2 月 7 日至 2 月 14 日于华盛顿举办的 AAAI 2023 会议上,广东外语外贸大学、网易互娱 AI Lab 和哥伦比亚大学的研究者在 AAAI 2023 发表的《MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL》中,为了降低对基于语法树的依赖,更好地挖掘预训练语言模型的能力,研究者在预训练 T5 模型的框架下,提出了一个两阶段的多任务 Text-to-SQL 模型 MIGA。

MIGA 分为两阶段的训练过程。在预训练阶段,MIGA 使用与 T5 相同的预训练范式,额外提出了三个与 Text-to-SQL 相关的辅助任务,从而更好地激发预训练语言模型在目标任务上的能力。在微调阶段,MIGA 针对多轮对话和 SQL 中容易存在的错误传递问题,在训练过程中对历史 SQL 进行扰动,使得生成当前轮次的 SQL 效果更加稳定。MIGA 模型在两个多轮对话 Text-to-SQL 公开数据集上表现优于目前最好的基于语法树的模型。

机器之心最新一期线上分享邀请到了广东外语外贸大学在读硕士付颖雯,为大家分享他们近期工作 MIGA。

分享主题:MIGA:基于生成式预训练语言模型T5的Text-to-SQL模型

分享嘉宾:付颖雯,广东外语外贸大学三年级硕士研究生,导师为蒋盛益教授,网易互娱 AI Lab 成员。目前主要研究方向为自然语言处理中的文本生成和低资源命名实体识别。

分享摘要:本次分享将讲解论文《MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL》。本次分享针对多轮对话 Text-to-SQL 任务,分析了现有方法的优劣并探究生成式预训练语言模型 T5 在该任务上的应用。此外,还将探讨可能的未来方向。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/miga

2)论文链接:

https://arxiv.org/abs/2212.09278v1


加群看直播
直播间关注机器之心机动组视频号,北京时间 3 月 6 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「MIGA」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“生成式大语言模型技术分享”系列直播即将启幕Alpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台美国成功预测了中国新冠的突然开放登顶对话式语义解析国际权威榜单SParC和CoSQL,全新多轮对话表格知识预训练模型STAR解读了解那些“奇葩”SQL写法,快速写出高效率SQLDiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索谷歌出品:基于大型语言模型的语义解析方法SparK项目原作解读:卷积模型的首个BERT预训练Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学:知识增强的预训练语言模型前沿研究进展自动驾驶生成式大模型 DriveGPT 来了:基于 4000 万公里量产车驾驶数据训练,参数规模 1200 亿何时起,“骰子”不读shǎi,改读tóu了?AudioLDM一作解读:文本生成高质量音频,单GPU即可ELITE项目原作解读:基于扩散模型的快速定制化图像生成MOAT项目原作解读:强大的可扩展视觉骨干网络《初恋》啊初恋:却道天凉好个秋!7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力AAAI 2023 | 基于T5的两阶段的多任务Text-to-SQL预训练模型MIGA小灾小祸避其后之大难在最美风景的阿尔卑斯高山公路自驾ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究最新综述:基于语言模型提示学习的推理大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架Galvatron项目原作解读:大模型分布式训练神器,一键实现高效自动并行SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型CogBERT:脑认知指导的预训练语言模型NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录SQL能完成哪方面的计算?一文详解关系代数和SQL语法你们可以不服老,但是我要服老!百万arXiv论文元信息训练语料!ChatGenTitle帮你一键生成论文题目
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。