Redian新闻
>
贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax

贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax

公众号新闻
金磊 发自 凹非寺
量子位 | 公众号 QbitAI

家人们,苦长文本久矣的大语言模型(LLM),现在终于有解法了!

就在最近,香港中文大学贾佳亚团队联合MIT宣布了一项新研究,一举打破如此僵局:

发布全球首个70B参数的长文本开源大语言模型——LongAlpaca

值得注意的是,这次团队开源的LongAlpaca不止是一个单一的大语言模型,实则是一个系列,包括:

  • 中杯:LongAlpaca-7B

  • 大杯:LongAlpaca-13B

  • 超大杯:LongAlpaca-70B

而在它们完整训练和评测的背后,更为关键的是研究团队精挑细选、千锤百炼得来的长文本数据集LongAlpaca-12k

并且在自研的大语言模型文本长度拓展方案LongLoRA的加持之下,在最终的结果上取得了惊艳的成绩——

只需两行代码、一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens。

要知道,现在主流的大语言模型都只支持短文本的输入(LLaMa支持2k tokens、Llama2支持4k tokens);而我们在实际使用的过程中往往需要的是长文本的输入。

例如让大语言模型去解读一本小说的剧情,再如让它帮你分析一篇论文等等。

而以往开源大语言模型要想拓展文本的长度,基本上就是堆算力,动辄消耗100块以上的GPU或TPU的那种。

不仅计算资源上的消耗巨大,更是由于缺少专精的数据集,使得长文本输入得到结果也并非那么理想。

这也就是开头我们提到“苦长文本久矣”的由来了。

那么贾佳亚领衔的研究团队发布的LongAlpaca的效果具体又是如何呢?

现在一同来体验下。

“全球首个”的一手体验

既然是一手体验,我们主打的就是要把LongAlpaca从方方面面来个评测。

分析某篇论文获奖原因

首先我们小试牛刀一下,将一篇ICLR的Oral论文(共12487 tokens)“投喂”给LongAlpaca,让它帮忙分析一下获奖原因。

一篇论文的文本长度定然不会是像我们平时提问普通问题那般简短,而且通篇的文字在逻辑上也是环环相扣,极具严谨性。

而LongAlpaca在面对如此专业性的论文,依旧是给出了较为完美的回答,分别从论文提出方法的新颖性、框架的综合评价,以及实验结果等关键要素进行了分析。

最后的总结是:

总而言之,这篇论文获奖的关键原因是所提出的Domino方法和评估框架的新颖性、有效性和通用性,推动了切片发现的最新进展。全面的实验评估和定量分析为支持概念贡献提供了强有力的经验证据。

根据两篇论文分析会议风格的区别

从第一个评测内容来看,LongAlpaca对于一篇论文内容长度的处理上是完全拿捏的。

那么如果“投喂”两篇,还是对比着来看的那种,它是否依旧能hold住呢?

话不多说,直接“丢进去”:

根据这两篇论文,比较一下两个会议的区别(共25802 tokens)

同样的,LongAlpaca依旧是从多个角度,方方面面地去回答这个问题——

论文的结构、技术的深度、理论与实验、表示法,甚至是文章的语言风格,都给出了具体的分析结果。

最后LongAlpaca给出的结论是:

CVPR的文章风格更加具备结构化和实验性,专注于描述一种计算机视觉任务的方法。

ICLR论文风格则是更灵活,专注于证明元学习见解的关键公式和理论分析。

提问名著章节

在感受完LongAlpaca对于论文的分析之后,我们继续来看下它能否拿捏更具戏剧性的小说名著。

把《西游记》的节选片段(共36870 tokens)丢进去,并提问:

在《西游记》中,孙悟空为什么在大闹天宫时期很厉害,但取经路上却屡屡受挫?

LongAlpaca按照《西游记》的故事时间线,分析了在大闹天宫时孙悟空的傲慢,后来被佛祖限制了能力,以及沿途的妖怪越发强大等种种的原因。

总结来说就是:

强大的对手、对他力量的限制、欺骗和缺乏同伴是他在旅途中失败的最初原因;但随着时间的推移,他获得了智慧、经验和战友,使他最终能够战胜更为强大的敌人。

与Llama 2同台竞技

在自身纵向的各项评测后,定然也是少不了横向的比较。

那么跟大语言模型开源界炙手可热的Llama 2相比,LongAlpaca的表现又会如何呢?

这轮我们派出的是“大杯”——LongAlpaca-13B选手,向它提出的问题是:

根据《三体》第一部中的章节(共32252 tokens),叶文洁为什么要联系外星人,而后期又为什么后悔?

LongAlpaca-13B可以说是较为精准地给出了答案:

叶文洁最初与外星人的接触既是出于理想主义,也是出于复仇,但随着时间的推移,她对人性的看法发生了变化,她意识到自己可能给全人类带来了危险,她的遗憾也随之增加。

反观Llama 2这边,同样是13B量级的大语言模型,做出的回答就有些差强人意了,大部分文字并没有围绕问题本身。

只是简单的提了一句:

最后她感到后悔,因为她意识到她的行为导致了她从未想过的后果。

总而言之,从种种的评测表现来看,LongAlpaca在处理长文本输入的难题上确实是做到了较大优化。

那么接下来的一个问题便是:

怎么做到的?

左手抓数据右手抓策略,这便是LongAlpaca的应对之道。

在数据方面,正如我们刚才提到的,训练长文本大语言模型的难点一方面在于缺少公开的长文本对话数据。

而且此前长文本模型的训练,大多是在非对话的语料上用 “next-token-generation”的方式进行继续预训练。

这种方式虽然能够align模型对于长文本的位置编码格式,但缺点也很明显,就是很难让模型有较好的对话能力。

因此,贾佳亚团队收集了9k条长文本问答语料对,包含针对名著、论文、深度报道甚至财务报表的各类问答。

其中,论文相关问答最为详细,包括了“审稿”、“论文对比”、“会议风格对比”、“修改意见”,以及针对论文内容的提问等。

但毕竟扬了“长”也不能忘了“短”,因此贾佳亚团队还从原有的Alpaca数据集中挑选了3k左右的短问答语料混合训练。

最终,也就成功构建了我们前文提到的LongAlpaca-12k。

接下来,便是策略层面。

正如我们刚才提到的,此前在大语言模型长文本输入问题上,另一个老大难的问题便是计算资源消耗量巨大。

具体而言,主要就是集中在了自注意力机制(self-attention)的计算上——开销随着文本长度成平方次地增加。

因此,研究团队以此作为突破口,提出了在研的大语言模型文本长度拓展方案LongLoRA;与此同时,还采用了分组和偏移的方式来对全局自注意力机制进行模拟。

LongLoRA设计概览

其中,LongLoRA具体的关键技术点就是shift short attention,我们姑且称之为偏置短注意力。

它的核心思想就是用sparse local attention(稀疏局部注意力)替换掉dense global attention(密集全局注意力)

大概可以理解为检索时的思想,只需要将匹配度、相似性高的centext拿过来用即可。

如此一来便可以大幅降低计算资源的消耗了。

shift short attention示意图

更重要的一点是,LongLoRA的训练只需要2行代码即可实现!

此外,LongLoRA还探索了低秩训练的方式。原有的低秩训练方式,如LoRA,无法在文本长度迁移上取得良好的效果。

而LongLoRA在低秩训练的基础上,引入嵌入层(Embedding layer和 Normalization layers)进行微调,从而达到可以和全参数微调(Full fine-tune)逼近的效果。

对于8k长度的模型训练,相比于全参数微调,LongLoRA将显存消耗从46.3GB降低到25.6GB。

对于64k长度的模型训练,相比于常规LoRA,LongLoRA将训练时间从90~100小时左右降低到52.4小时。

全参数微调、常规LoRA和LongLoRA的性能比较

值得一提的是,LongLoRA在各类语言任务上,包括文本建模(Proof-pile、PG-19)、信息检索(topic retrieval, passkey retrieval),都展现了优异的性能。

并且LongLoRA可以仅在一台8卡A100机器上将7B模型的文本长度拓展到100k tokens,将70B模型的文本长度拓展到32k tokens,并且保持出色的语言建模性能。

如何部署?

对于如此“快、好、省”的项目,你是不是迫不及待地想要尝鲜了呢?

现在,它已经在GitHub上开源,并给出了十分详细的部署教程。

例如在安装方面,仅需要简单六步:

1、在GitHub中fork这个repo。

2、在本地机器上克隆存储库,使用git Clone并粘贴此项目的url。

3、运行如下代码:

pip install -r requirements.txt
pip install flash-attn --no-build-isolation

4、根据偏好,使用“已发布模型”和“微调模型”。

5、通过对话测试模型。

6、部署到自己的demo。

以及还有各种“杯型”的模型、训练过程代码等等,团队都在GitHub项目中详细地展示了出来。

有需求的小伙伴可戳下方链接自取了~

GitHub项目地址:
https://github.com/dvlab-research/LongLoRA

论文地址:
https://browse.arxiv.org/pdf/2309.12307.pdf

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型20B跨级挑战70B性能!国产开源大模型打造大模型新标杆大语言模型真能“理解”语言吗?UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源Stability AI进军编程领域,发布首个用于代码生成的大语言模型贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜《天凉好个秋》&《江南烟雨路》5133 血壮山河之武汉会战 信罗战役 6视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型Meta开源Code Llama,号称编程领域 “最先进的大语言模型”K2乔戈里,上交大团队推出一个70亿参数的地球科学大语言模型Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPTOpenAI科学家Andrej Karpathy力荐,23年必读的大语言模型论文清单从108篇顶会论文看大语言模型时代的推荐系统2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线如何判别大语言模型生成的文本?全球首个可商用生物医药大模型BioMedGPT-10B开源20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了两行代码解决大模型对话局限,港中文贾佳亚团队联合 MIT 发布超长文本扩展技术国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B两行代码解决大语言模型对话局限!港中文贾佳亚团队联合 MIT 发布超长文本扩展技术北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成解锁通用听觉人工智能!清华电子系联合火山语音,开源全新认知导向听觉大语言模型组织抛弃了他吹尽黄沙不见金(七十四):暗示香港城市大学招收AI、机器学习、数据挖掘、大语言模型,全奖 PhD/联培 PhD一周工作5分钟完成!新版文心一言实测:秒秒钟出广告片,几句话搞定代码,办公科研生产力直接ProMax笑谈邂逅(30)万一副厅是性情中人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。