最全!LLaMA 3/2/1模型结构总览 & 亮点分析
上个月,MetaAI开源了第三代Llama 3系列,是目前为止最强的开源大语言模型!传奇研究员,AI开源倡导者吴恩达表示:“Llama 3的发布是自己这辈子收到过的最好的礼物,谢谢你Meta!”
不过以ChatGPT为代表的一众大语言模型已对自然语言处理领域下的传统任务造成不同程度上的冲击。我们邀请到了国家实验室青年研究科学家、顶会审稿人Tingberg导师,为我们带来精彩课程——大模型时代科研角度LLaMA 3能做什么?导师结合自身的研究经历,以llama 3为例介绍科研人如何快速入门大模型领域。
扫码免费参与课程
👇🏻👇🏻👇🏻
👇🏻免费领👇🏻
100篇大模型论文及复现代码
原价288元的热门大模型系列课
▲100篇大模型论文及复现代码
▲原价288元的热门大模型系列课
导师介绍
Tingberg
个人简介:某国家实验室青年研究科学家,博士毕业于某985高校,曾于哥本哈根大学做访问学者,长期担任NLP领域顶级会议ACL,EMNLP,COLING,NAACL,AACL,EACL,IJCNN等审稿人;
研究领域:主要包括情感分析,新闻推荐,关系分类,知识增强,大模型预训练和分析等;熟练python语言及相关神经网络框架Torch,Tensorflow等。
学术成果:共有十余篇SCI国际期刊论文,包括一区期刊Expert Systems with Applications (影响因子8.5),Knowledge-Based Systems (影响因子8.6),及二区期刊Neurocomputing (影响因子5.8),CCF-A类会议论文ACL, CCF-B类会议COLING, ICCD等。23年论文被引40余次。所有已发表论文均开源代码。指导博士研究生、硕士研究生多人,包括来自UCLA的博士和UCPH的硕士生。
课程大纲
live
-GPT发展史与LLaMA系列
-LLaMA3网络结构与效果
-LLaMA3训练及计算资源要求
-大模型时代科研角度LLaMA3能做什么
扫码免费参与课程
👇🏻👇🏻👇🏻
👇🏻免费领👇🏻
100篇大模型论文及复现代码
原价288元的热门大模型系列课
新一代Llama 3模型,有哪些亮点?
就在一个月前,Meta不负众望发布了两款开源Llama 3 8B与Llama 3 70B模型。并称这是同等体量下,性能最好的开源模型。
号称一代更比一代强的Llama 3 8B,在部分性能测试上甚至比Llama 2 70B还要强大。无论是预训练还是指令微调,都展现出更灵活易用的特点。
这也受益于Meta在研发Llama 3 过程中,设计的一套更高质量的人类评估标准。1800个测试项、12个主要应用场景,囊括了角色扮演、逻辑推理、开放/封闭式问题等多项标准。
基于这一评估标准,相较于Claude Sonnet、Mistral Medium 以及 GPT-3.5 模型,Meta Llama3的提升可见一斑。
扫码免费参与课程
👇🏻👇🏻👇🏻
👇🏻免费领👇🏻
100篇大模型论文及复现代码
原价288元的热门大模型系列课
备受瞩目的Meta Llama3,将精力集中在四大核心要素:模型架构、预训练数据、预训练规模、指令微调。
模型架构:
与前一代Llama2相比,Llama3进行了关键性能改进。首先,Llama3采用128K token的分词器,以提高编码语言效率;其次,8B和70B规模模型采用GQA技术,最多可以处理8192个Token序列,并且通过掩码技术规范模型的自注意力机制,以防跨越不同文档界限。
训练数据:
与前一代Llama2相比,Llama3的训练集规模扩大了7倍、代码数据量增加了4倍,在预训练数据投入了更多资源,基于超过15T 的 Token,覆盖了超30种语言。并且,训练过程中,为保障优质数据,还打造了包含应用启发式过滤器、NSFW 内容过滤、语义去重技术和文本质量分类器等一系列高效数据过滤流程。
训练规模:
训练数据的提升使训练规模也需要跟上节奏。为挑选出最佳的数据处理方案,Llama 3 制定了一套详尽的 Scaling Laws以确保多场景下的能力表现。
为训练目前为止最大规格的Llama 3 模型,Meta采用了三种并行技术:数据并行、模型并行和流水线并行。以此达到在16K的GPU上同时训练,最高效可以实现每个GPU超400TFLOPS的计算利用率。
总体而言,相较Llama 2 ,Llama 3 的训练效率提升了大约三倍。
指令微调:
为了提高聊天应用场景的效能,Llama 3 还通过指令微调的办法完成创新性改进。关于Llama 3的训练策略融合了监督式微调、拒绝抽样、近端策略优化和直接策略优化等多种技术,以此提升 Llama 3 在逻辑推理和编程任务上的表现。
扫码免费参与课程
👇🏻👇🏻👇🏻
👇🏻免费领👇🏻
100篇大模型论文及复现代码
原价288元的热门大模型系列课
针对“疯狂”的Llama 3,科技大佬纷纷现身,发表意见。
在Yann LeCun 为 Llama 3 的发布摇旗呐喊的帖子下,马斯克现身该评论区,留下一句「Not bad 」,表达认可和期待。
英伟达高级科学家Jim Fan称,“ Llama-3-400B+ 将标志着社区获得 GPT-4 级模型的开放权重访问权的分水岭时刻。它将改变许多研究工作和草根初创公司的计算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了数据,Llama-3-400B仍在训练中,希望在接下来的几个月里会变得更好。有如此多的研究潜力可以通过如此强大的能力释放,期待整个生态系统的建设者能量激增!”
传奇研究员,AI开源倡导者吴恩达表示:“Llama 3的发布是自己这辈子收到过的最好的礼物,谢谢你Meta!”
小扎则表示,“我们的目标不仅仅是与开源模型竞争,而是要超过所有人,打造最领先的人工智能。”
根据Meta AI的工程师Aston Zhang透露,未来Llama 3还会解锁新的能力,比如多模态、以及性能更强的400B版本。
Meta自己也放了隐藏小彩蛋:“您很快就可以在我们的 Ray-Ban Meta 智能眼镜上测试多模式 Meta AI。一如既往,我们期待看到您使用 Meta Llama 3 构建的所有令人惊叹的产品和体验。”
“通过 Llama 3,我们着手构建与当今最好的专有模型相媲美的最佳开放模型,”Meta强调,“我们致力于开放 AI 生态系统的持续增长和发展,以负责任地发布我们的模型。我们长期以来一直相信,开放可以带来更好、更安全的产品、更快的创新以及更健康的整体市场。这对 Meta 有利,对社会也有利。”
扫码免费参与课程
👇🏻👇🏻👇🏻
👇🏻免费领👇🏻
100篇大模型论文及复现代码
原价288元的热门大模型系列课
此次Meta新一代Llama 3模型的发布,让大语言模型的多模态能力、生态化,有了更进一步的革新。
而大模型作为热门方向之一,如果能产出高区论文,对自己的学业或者就业,都有很大的加分!
对于大佬来说,一篇顶会的完成可能只需要2个月,但对普通科研er来说,通常需要4-6个月去完成,如果遇到卡点迟迟不能解决,那就要半年以上!
01
文末福利
文末给大家送一波大福利!我整理了100节计算机全方向必学课程,包含CV&NLP&论文写作经典课程,限时免费领!
扫码免费领
微信扫码关注该文公众号作者