大模型杀疯了!谷歌、微软全All in
2023年初以来,以ChatGPT为代表的大模型成为世界数字科技领域的新热点,大模型目前在机器翻译、语言理解、聊天机器人、图像识别,图像视频生成、语音识别、推荐系统等等领域都获得了革命性的进步。
为了能够让大家更深入地了解大模型领域,我们联合沃恩智慧qs前50,人均20+篇一作作者,打造了大模型系列精品课程,原价699元,限时0元免费送!
导师推荐近三年热门大模型论文合集&部分老师授课PPT原件
20+本ChatGPT相关电子书
大模型系列课程概览
系列1 万物皆可大模型系列
1.GPT Plugin背后的机理
2.大模型与数据库交互
3.大模型玩MineCraft
系列2 后AI大模型时代,多模态助你弯道超车
1.多模态学习-大模型开启AI新时代
2.如何快速训练自己的多模态AI大模型
3.后AI时代,多模态的研究方向和热点
系列3 惊艳的大模型高效参数微调法
1.大模型微调-任务特定的P-tuning
2.大模型微调-任务/模型无关的LORA
3.大模型微调方法-Peft库使用实践(实战篇)
系列4 大模型在文本生成方向的最新尝试工作
1.对比学习在多模态和NLP领域的应用
导师推荐近三年热门大模型论文合集&部分老师授课PPT原件
20+本ChatGPT相关电子书
大模型微调遗忘问题依旧是当下的热点研究方向,近期有团队针对语言模型,在医疗问题解答(QA)任务的特定数据集上对其进行了微调。然后测量它在其他医学问答数据集上的分布通用性,并评估在常识性问答以及指令性任务中的任务通用性。
最近,又相继出现了各方向领域的微调模型,这里给大家介绍几个比较有特色的新微调模型:
TransGPT为一个开源交通大模型,能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。
模型基座采用LLaMA7B进行训练。
地址:
https://github.com/DUOMO/TransGPT
墨子(Mozi)大模型,主要完成科技文本理解和生成任务,覆盖了包括科技问答、对话、信息抽取和摘要理解等特定任务。
基于llama7b、Baichuan7b,使用的训练方法为QLoRA优化,使用8卡3090服务器训练约9天完成。模型支持最大输入长度为4096。
地址:
https://github.com/gmftbyGMFTBY/science-llm
天文领域微调模型:StarGLM,该项目整合了司天工程相关的语料数据与知识库资料,训练得到了天文大语言模型StarGLM(ChatGLM for Variable Star),以期缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象。
地址:
https://github.com/Yu-Yang-Li/StarGLM
在微调数据方面,先后经过ChatGPT-Corpus、Belle项目筛选数据、Firefly+Instinwild项目筛选数据、GPT-4-LLM项目筛选数据,并配合人工标注,共同组成20W条天文对话数据。
微信扫码关注该文公众号作者