Redian新闻
>
从BERT到ChatGPT!97页全面综述:那些年一起追过的预训练基础模型

从BERT到ChatGPT!97页全面综述:那些年一起追过的预训练基础模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:新智元 | 编辑:LRS

【导读】2023年了,还有人从头开始训模型吗?追踪一下从Bert以来的那些预训练模型。


ChatGPT在few-shot和zero-shot场景下展现出的惊人性能,让研究人员们更坚定「预训练」是一条正确的路线。

 

预训练基础模型(Pretrained Foundation Models, PFM)被认为是不同数据模式下各种下游任务的基础,即基于大规模数据,对 BERT、 GPT-3、 MAE、 DALLE-E 和 ChatGPT 等预训练基础模型进行训练,为下游应用提供了合理的参数初始化。

 

 

PFM 背后的预训练思想在大型模型的应用中起着重要作用,与以往采用卷积和递归模块进行特征提取的方法不同,生成预训练(GPT)方法采用 Transformer 作为特征提取器,在大型数据集上进行自回归训练。

 

随着 PFM 在各个领域获得巨大成功,近几年发表的论文中提出了大量的方法、数据集和评价指标,行业内需要一篇从BERT开始一直追踪到ChatGPT发展过程的全面综述。

 

最近,来自北航、密歇根州立大学、理海大学、南洋理工、杜克等国内外多所知名院校、企业的研究人员联合写了一篇关于预训练基础模型的综述,提供了在文本、图像和图(graph)等领域的最近的研究进展,以及目前和未来的挑战、机遇。

 

A Comprehensive Survey on Pretrained Foundation Models: A
History from BERT to ChatGPT

论文:https://arxiv.org/abs/2302.09419

 

研究人员首先回顾了自然语言处理、计算机视觉和图形学习的基本组成部分和现有的预训练;然后讨论了其他先进的 PFM 的其他数据模式和统一的 PFM 考虑数据质量和数量;以及PFM 基本原理的相关研究,包括模型效率和压缩、安全性和隐私性;最后,文中列出了几个关键的结论,包括未来的研究方向、挑战和开放的问题。

 

从BERT到ChatGPT

 

预训练基础模型(PFMs)是大数据时代构建人工智能系统的重要组成部分,其在自然语言处理(NLP)、计算机视觉(CV)和图学习(GL)三大人工智能领域得到广泛的研究和应用。

 

PFMs是通用模型,在各个领域内或跨领域任务中都很有效,在各种学习任务中学习特征表示方面表现出巨大的潜力,如文本分类、文本生成、图像分类、物体检测和图分类等。

 

PFMs在用大规模语料库训练多个任务并对类似的小规模任务进行微调方面表现出卓越的性能,使得启动快速数据处理成为可能。

 

PFMs和预训练

 

PFMs是基于预训练技术的,其目的是利用大量的数据和任务来训练一个通用模型,在不同的下游应用中可以很容易地进行微调。

 

预训练的想法起源于CV任务中的迁移学习,在认识到预训练在CV领域的有效性后,人们开始使用预训练技术来提高其他领域的模型性能。当把预训练技术应用于NLP领域时,经过良好训练的语言模型(LMs)可以捕捉到对下游任务有益的丰富知识,如长期依赖关系、层次关系等。

 

此外,预训练在NLP领域的显著优势是,训练数据可以来自任何未标记的文本语料库,也就是说,在预训练过程中存在着无限量的训练数据。

 

早期的预训练是一种静态方法,如NNLM和Word2vec,很难适应不同的语义环境;后来有研究人员提出了动态预训练技术,如BERT、XLNet等。

 

PFMs在NLP、CV和GL领域的历史和演变

 

基于预训练技术的PFMs使用大型语料库来学习通用语义表征,随着这些开创性工作的引入,各种PFMs已经出现,并被应用于下游的任务和应用。

 

一个显著的PFM应用案例就是最近爆火的ChatGPT。



ChatGPT是从生成式预训练Transformer,即GPT-3.5在文本和代码的混合语料训练后,再微调得到的;ChatGPT使用了来自人类反馈的强化学习(RLHF)技术,也是目前将大型LM与人类的意图相匹配的一种最有前景的方法。

 

ChatGPT的优越性能可能会导致每一类PFMs的训练范式转变的临界点,即应用指令对齐(instruction aligning)技术,包括强化学习(RL)、prompt tuning和思维链(chain-of-thought),并最终走向通用人工智能。

 

这篇文章中,研究人员主要回顾了文本、图像和图(graph)相关的PFM,也是一个相对成熟的研究分类方法。

 

 

对于文本来说,语言模型通过预测下一个单词或字符即可实现多种任务,例如,PFMs可用于机器翻译、问题回答系统、主题建模、情感分析等。

 

对于图像来说,类似于文本中的PFMs,使用大规模的数据集来训练一个适合多个CV任务的大模型。

 

对于图来说,相似的预训练思路也被用于获得PFMs,可用于诸多下游任务。

 

除了针对特定数据域的PFMs,文中还回顾并阐述了其他一些先进的PFMs,如针对语音、视频和跨域数据的PFMs,以及多模态PFMs。

 

此外,一个能够处理多模态的PFMs的大融合趋势正在出现,也就是所谓的统一(unified)PFMs;研究人员首先定义了统一PFMs的概念,然后回顾了近期研究中最先进的统一PFMs,包括OFA、UNIFIED-IO、FLAVA、BEiT-3等。

 

根据这三个领域现有的PFMs的特点,研究人员得出结论,PFMs有以下两大优势

 

1. 只需要进行极少的微调就可以提高模型在下游任务上的表现;

2. PFMs已经在质量方面通过了考验。

 

与其从头开始建立一个模型来解决类似的问题,更好的选择是将PFMs应用于与任务相关的数据集。

 

PFMs的巨大前景激发了大量的相关工作来关注模型的效率、安全性和压缩等问题。

 

这篇综述的特点在于:


  • 研究人员跟踪了最新的研究成果,对PFM在NLP、CV和GL中的发展进行了扎实的总结,讨论并提供了关于这三个主要应用领域中通用的PFM设计和预训练方法的思考结果。


  • 总结了PFMs在其他多媒体领域的发展,如语音和视频,还进一步讨论了关于PFMs的更深层次的话题,包括统一的PFMs、模型效率和压缩,以及安全和隐私。


  • 通过对各种模态下不同任务的PFMs的回顾,讨论了在大数据时代对超大型模型未来研究的主要挑战和机遇,将引导开发新一代基于PFMs的协作和交互智能。


参考资料:

https://arxiv.org/abs/2302.09419

点击进入—>【计算机视觉】微信技术交流群


最新CVPP 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
训练自己的ChatGPT!!微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世GPT-4 重磅发布,吊打 ChatGPT!太太太强了!「ChatGPT之母」最新采访:GPT-4离超级智能还很远,半年内不会训练GPT-5橡树岭的秘密ChatGPT引领AIGC!Lehigh最新《AI生成内容》全面综述,44页详述GAN到ChatGPT发展历程从BERT到ChatGPT,百页综述梳理预训练大模型演变史从语言模型到ChatGPT,大模型调教全攻略从BERT到ChatGPT,北航等9大顶尖研究机构全面综述:那些年一起追过的「预训练基础模型」ChatGPT背后的指令学习是什么?PSU发布首篇「指令学习」全面综述真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集ChatGPT之后何去何从?LeCun新作:全面综述下一代「增强语言模型」MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学:知识增强的预训练语言模型前沿研究进展ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇青春未散场 仍是好时光大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布几行代码,GPT-3变ChatGPT!吴恩达高徒、华人CEO震撼发布Lamini引擎47页全套高级UI作品集开源了!速度下载[ 第351期 ]零门槛复现ChatGPT:预训练模型数据集直接用,包含完整RLHF流程,在线可体验人手一个ChatGPT!微软DeepSpeed Chat震撼发布,一键RLHF训练千亿级大模型GPT-4重磅发布,吊打ChatGPT!性能炸天:10秒做出一个网站,在考试中击败90% 人类《人民》就是全世界受苦的人!CogBERT:脑认知指导的预训练语言模型30页论文!俞士纶团队新作:AIGC全面调查,从GAN到ChatGPT发展史ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!ChatGPT背后大模型如何高效训练?京东探索研究院、悉大、中科大60页论文详述五大类训练方法三年来新冠主要症状的改变逛圣诞集市 | 柏林AIGC最新综述:从 GAN 到 ChatGPT 的AI生成历史突然出手!意大利封杀ChatGPT!马斯克也下场呼吁限制ChatGPT!AI发展可能超越人类思维?2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。