Google语言模型反击战!部分性能超越ChatGPT!
9月7日-9月8日,浙江大学博士,某大厂高级算法工程师Liz老师为我们带来——ChatGPT爆火背后的语言模型,和大家一起探讨语言模型的前世今生。
论文合集仅展示部分
导师简介:
-浙江大学博士,某大厂高级算法工程师
-共发表20余篇SCI国际期刊和EI会议论文,包括一区期刊IEEE Internet of Things Journal(影响因子11.1),IEEE Transactions on Energy Conversion(影响因子5.4)等,累计引用600余次
-研究领域:能源与智慧运维,物联网,边缘计算,机器视觉、 模式识别与图形处理、元宇宙、大模型等
-指导博士研究生、硕士研究生、公司实习生20余人
直播大纲:
一、语言模型的前世今生
1.语言模型简述与其类型
2.语言模型的架构
3.预训练模型
4.应用与展望
二、主流大模型
1.主流大模型类型
2.评价指标
3.两大语言模型详情
4.预训练模型
5.模型基底与训练
大语言模型的训练过程通常包括两个阶段:预训练和微调。在预训练阶段,模型使用大规模的非标记数据进行训练,通过自监督学习的方式掌握语言的规则和语义。预训练阶段的目标是尽可能地学习到语言的统计属性和上下文关系。在预训练完成后,模型会进入微调阶段,使用有标记的数据进行特定任务的训练,以提高模型在具体任务上的性能。
作为人工智能计算机界的大热门,语言模型绝对是一篇论文的好idea,9月7日-9月8日,浙江大学博士,某大厂高级算法工程师Liz老师将带着大家一起探讨模型语言的前世今生。
论文合集仅展示部分
语言模型LM基本经过了4个发展阶段。
1.STM (统计语言模型): 例如基于马尔科夫链预测下个词。
2.NLM (神经语言模型/基于神经网络的语言模型) :例如RNN、LSTM等。
3.PLM(预训练语言模型): GPT-1,GPT-2,Ber等。与NLM的不同是,将语言模型做成了“劳永逸”的形式,即一个模型可以做很多事,只要训练了一个模型后,不需要下游任务进行复杂的微调。其中GPT-2将模型做成了Zero-shot的形式大大加强了预训练语言模型的性能。
4.LLM(大型语言模型): GPT-3,PALM、ChatGPT、LLaMA、GPT-4等。与PLM最直观的不同是模型大了,训练数据多了。
全民积极向(内)上(卷)的时代,江湖常有传言:SCI在手,升职加薪、前程无忧。
作为日常为了论文而忙碌的科研人,小编知道大家一定很需要一些资料。因此,小编精心整理了2023最新AI精品系列课程!课程包含AI基础入门课、前沿论文带读,沐神点赞的同济子豪兄精读AI论文系列,全部整理完毕!全部免费!
微信扫码关注该文公众号作者