Redian新闻
>
今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory

今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory

科技
 夕小瑶科技说 原创
 作者 | Tscom

引言:大语言模型的高效微调及其在多样化任务中的应用

在人工智能领域,大语言模型(LLMs)已成为推动技术进步的关键力量。它们在理解和生成自然语言方面展现出了卓越的能力,从而在问答系统、机器翻译、信息提取等多样化任务中发挥着重要作用。然而,要将这些模型适配到特定的下游任务中,通常需要进行微调(fine-tuning),这是一个资源密集型的过程。高效的微调方法因此成为了研究的热点,旨在减少训练成本,同时保持或提升模型性能。

尽管如此,实现这些方法在不同模型上的应用仍然需要非凡的努力。为了解决这一问题,研究者们开发了各种框架来简化微调流程,提高资源利用率,并通过友好的用户界面降低技术门槛。这些框架的出现,使得更多的研究者和开发者能够利用LLMs,推动了人工智能技术的民主化。

LLAMA FACTORY是一个旨在普及LLMs微调的框架。它通过可扩展的模块统一了多种高效微调方法,使得数百种语言模型能够在资源有限的情况下进行高吞吐量的微调。此外,该框架还简化了常用的训练方法,如生成式预训练、监督式微调、基于人类反馈的强化学习以及直接偏好优化等。用户可以通过命令行或Web界面,以最小或无需编码的方式自定义和微调他们的语言模型。

LLAMA FACTORY的有效性和效率已通过语言建模和文本生成任务得到实证验证。该框架已在GitHub上发布,并获得了超过13,000个星标和1,600个分支。

论文标题:
LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models

论文链接:
https://arxiv.org/pdf/2403.13372.pdf

项目链接
https://github.com/hiyouga/LLaMA-Factory

LLAMA FACTORY框架的核心组成

下图显示了LLAMA FACTORY由三个主要模块组成:模型加载器(Model Loader)、数据工作者(Data Worker)和训练器(Trainer)。

1. 模型加载器:支持100+语言模型的准备工作

LLAMA FACTORY框架的模型加载器是其核心组件之一,负责准备和加载超过100种不同的语言模型。这一模块通过建立模型注册表,精确地为预训练模型附加适配器,识别并处理模型的各个层次。此外,模型加载器还负责模型的初始化、模型补丁、模型量化和适配器附加等关键任务,确保了框架能够灵活地扩展到数百种模型和数据集。

2. 数据工作器:处理和标准化不同任务的数据集

数据工作器是LLAMA FACTORY框架的另一个关键模块,它通过一系列的数据处理流程,包括数据加载、数据对齐、数据合并和数据预处理,来处理和标准化不同任务的数据集。该模块利用数据描述规范(下表)来统一不同格式的数据集,使其能够适应各种任务。例如,对于文本生成模型的训练,数据工作器提供了多种聊天模板,这些模板可以根据模型类型自动选择,并通过分析器编码句子。

3. 训练器:整合多种高效微调方法

训练器是LLAMA FACTORY框架的第三个核心模块,它整合了多种高效的微调方法,如LoRA+和GaLore,通过替换默认组件来适应不同的任务和数据集。这些训练方法与训练器相互独立,易于应用于各种任务。训练器还支持分布式训练,可以与DeepSpeed等工具结合使用,进一步降低内存消耗。

高效微调技术的分类与应用

高效的LLM微调技术可以分为两个主要类别:一类专注于优化,另一类旨在计算。

1. 高效优化技术:减少参数调整成本

高效优化技术的主要目标是在保持成本最低的同时调整LLMs的参数。LLAMA FACTORY框架中包含的高效优化技术(下表)有freeze-tuning(冻结大部分参数,仅微调少量解码器层的参数)、GaLore(将梯度投影到低维空间,以内存高效的方式进行全参数学习)、LoRA(冻结所有预训练权重,引入可训练的低秩矩阵)以及DoRA(将预训练权重分解为幅度和方向组件,仅对方向组件应用LoRA)等。

2. 高效计算技术:降低计算所需的时间或空间

高效计算技术旨在减少LLMs所需的计算时间或空间。LLAMA FACTORY框架整合了一系列高效计算技术(上表),如混合精度训练、激活检查点、flash attention(一种硬件友好的注意力计算方法)、S2 attention(解决块稀疏注意力中上下文扩展的挑战)以及各种量化策略(使用低精度表示权重以减少内存要求)。此外,Unsloth技术通过Triton实现LoRA的反向传播,减少了梯度下降过程中的浮点运算,加速了LoRA训练。

LLAMA FACTORY的实用工具和特性

在当今大数据时代,高效地调整和优化LLMs对于实现其在下游任务中的最佳性能至关重要。LLAMA FACTORY框架应运而生,为广大研究者和开发者提供了一个统一、高效的LLM微调平台。以下是LLAMA FACTORY的一些核心工具和特性:

1. 加速推理:提供高吞吐量的并发推理服务

LLAMA FACTORY通过集成先进的计算技术,如混合精度训练、激活检查点以及特定的注意力机制优化(例如Flash Attention和S2 Attention),显著提高了模型的推理速度。这些技术共同作用,使得在进行大规模模型推理时,能够以更低的内存占用和更高的吞吐量执行,从而加速了模型的部署和应用。

2. 综合评估:包含多种评估LLMs的指标

为了全面评估微调后模型的性能,LLAMA FACTORY集成了一系列评估指标,包括多项选择任务的评估(如MMLU、CMMLU和C-Eval)以及文本相似度评分(如BLEU-4和ROUGE)。这些综合评估工具不仅支持自动评估模型的性能,还能通过人工评估提供更加深入的洞察,帮助用户从多个维度理解模型的优势和局限。

LLAMABOARD:用户友好的界面

为了降低LLM微调的门槛,LLAMA FACTORY提供了LLAMABOARD,一个基于Gradio构建的用户友好界面,使得用户无需编写任何代码即可轻松地进行模型的配置、训练和评估(下图)。

1. 易于配置:无需编码即可自定义微调参数

通过LLAMABOARD,用户可以通过简单的图形界面来配置微调参数,如学习率、批次大小等。该界面为用户提供了默认的参数值推荐,同时也允许用户根据自己的需求进行自定义,极大地简化了模型微调的配置过程。

2. 可监控训练:实时可视化训练日志和损失曲线

在模型训练过程中,LLAMABOARD实时更新并可视化训练日志和损失曲线,使用户能够实时监控训练进度和模型性能。这一特性为用户提供了及时调整训练策略的依据,有助于提高模型微调的效率和效果。

3. 灵活评估:支持自动和人工评估模型性能

LLAMABOARD支持在数据集上自动计算文本相似度分数来评估模型性能,同时也提供了与模型交互的界面,允许用户通过与模型的对话来进行人工评估。这种灵活的评估方式使用户能够从不同角度全面了解模型的性能,为进一步优化模型提供了宝贵的反馈。

通过这些实用的工具和特性,LLAMA FACTORY为广大研究者和开发者提供了一个高效、便捷的平台,以促进LLMs在各种应用场景中的发展和应用。

实证研究:框架的训练效率和任务适应性验证

1. 训练效率的实验设置和结果分析

在LLAMA FACTORY框架的训练效率实验中,研究者们选择了PubMed数据集作为训练材料,该数据集包含超过3600万条生物医学文献记录。从这些文献的摘要中提取了约40万个token作为训练样本。实验涉及了多种不同的高效微调方法,包括全参数微调(Full-tuning)、冻结微调(Freeze-tuning)、GaLore、LoRA以及4位QLoRA。实验中,研究者们使用了Gemma-2B、Llama2-7B和Llama2-13B模型,并通过计算在训练样本上的困惑度(Perplexity, PPL)来评估不同方法的效率。

实验结果显示(下表,粗体字是最佳结果),QLoRA在内存占用上一致表现最佳,这得益于其在低精度下表示预训练权重。而LoRA则在吞吐量上表现更优,这是由于使用了Unsloth对LoRA层进行的优化。在大型模型上,GaLore在降低PPL方面表现更好,而在较小的模型上,LoRA则具有优势。这些结果凸显了高效微调方法在适应特定任务时的有效性。

2. 在下游任务上的微调效果评估

为了评估不同高效微调方法的任务适应性,研究者们在多个下游任务上进行了实验。这些任务包括CNN/DM、XSum和AdGen,分别代表了文本摘要和广告文案生成等文本生成任务。实验中选取了多个指令调优模型,并采用序列到序列的任务进行微调。比较了全参数微调(FT)、GaLore、LoRA和4位QLoRA的效果,并在每个任务的测试集上计算了ROUGE得分。

实验结果表明(下表,粗体字是最佳结果),除了Llama2-7B和ChatGLM3-6B模型在CNN/DM和AdGen数据集上,LoRA和QLoRA在大多数情况下都取得了最佳性能。这表明这些高效微调方法在特定任务上具有良好的适应性。此外,Mistral-7B模型在英文数据集上表现更好,而Qwen1.5-7B模型在中文数据集上得分更高,这表明微调后模型的性能也与其在特定语言上的固有能力有关。

结论与未来工作:总结LLAMA FACTORY的贡献和展望

LLAMA FACTORY框架通过模块化设计,最小化了模型、数据集和训练方法之间的依赖性,并提供了一个集成化的方法,可以使用多种高效微调技术对超过100种语言模型进行微调。此外,该框架还提供了一个灵活的Web UI LLAMABOARD,使用户能够在无需编码的情况下自定义微调和评估语言模型。通过在语言建模和文本生成任务上的实证验证,证明了框架的效率和有效性。

未来,研究者们计划持续将LLAMA FACTORY与最新的模型和高效微调技术保持同步,并欢迎开源社区的贡献。在未来的版本中,研究者们将探索更先进的并行训练策略和多模态高效微调语言模型。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?语言是一门艺术今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准今日arXiv最热NLP大模型论文:清华大学:大语言模型的常见词僻意理解能力竟不如中学生今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准中国正在掩盖一场经济危机今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu今日arXiv最热NLP大模型论文:又到美国大选年,南加大教你如何用ChatGPT影响竞选今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好今日arXiv最热NLP大模型论文:韩国团队提出ResearchAgent系统,模仿人类产出论文idea今日arXiv最热NLP大模型论文:清华大学提出IFT对齐算法,打破SFT与RLHF局限性今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意7036 血壮山河之枣宜会战 “扑朔迷离”南瓜店 13今日arXiv最热NLP大模型论文:斯坦福发布法律指令数据集LawInstruct,统一17个辖区24种语言童年忆事 一、三虎今日arXiv最热NLP大模型论文:引入噪声,可提升RAG检索效果超30%??【解字】品“头”论“足”今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集今日arXiv最热NLP大模型论文:COLING2024发布数据集揭示从莎士比亚时期开始的性别偏见今日arXiv最热NLP大模型论文:GPT-4理解武林外传中的含蓄表述,达人类水平今日arXiv最热NLP大模型论文:面向不确定性感知的Language Agent今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。