2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒
新智元报道
新智元报道
【新智元导读】大模型上下文从此不再受限!港中文贾佳亚团队联手MIT发布了全新超长文本扩展技术LongLoRA,只需2行代码,让LLM看小说,读论文,轻松拿捏。
体验过LLM的人,多少都会对文本输入长度带来的限制有所感触:
想和大模型讨论一些稍长的内容,就需要拆分输入,而前面输入的要点,很快就会被大模型忘记。
论文地址:https://arxiv.org/abs/2309.12307
全球首个70B长文本大语言模型发布
看小说、改论文、指点经济堪称全能王
让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率:
LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向,重点呈现关键贡献和影响,论文被接受的机会将得到提高。
现在,让系统读两篇新的不同的论文,让LongAlpaca概括ICLR和CVPR两个会议之间的风格区别:
LongAlpaca总结认为,CVPR论文倾向更具结构性和实验性的风格,专注于实用性和技术性。而ICLR的论文风格更加灵活,侧重关键的理论分析和数学推导,而非标准格式。
可以看出,经过训练的LongAlpaca模型已经可以很轻松地接受新的长篇学术论文,在学术相关问题的回答上相当精准。
LongAlpaca告诉我们,2023年全球经济形势不明朗,跟2022年相比,增长预计放缓;未来几年,全球经济扩张速度偏温和并将低于预期,而地缘政治紧张、金融市场波动等大的挑战依然存在,需通过多边合作和结构性改革小心应对。
名著《西游记》中,为什么孙悟空在大闹天宫时很厉害,但取经路上却屡屡受挫?
LongAlpaca给出了5点原因,大概可总结为:「孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移,他获得了智慧、经验和战友,使他最终战胜了最强大的敌人。」
而Llama2并没有给出正确答案:「虽然他确实大闹天宫,但说他代表着不败的力量并不一定准确。事实上,他最终在西游记中被强大的唐三藏打败。」
这一次让系统新读一次《三体》,然后问第一部中,叶文洁为什么要联系外星人,而后期又为什么后悔?
LongAlpaca认为,叶文洁最初接触外星人是出于理想主义和复仇,但随着时间的推移,她对人类的看法发生了变化,意识到自己可能给全人类带来的危险,她的悔恨与日俱增。回答得十分清晰。
而Llama2的回答则是,「通过与外星人的互动,她希望能更深入地了解宇宙的本质,以及自己在宇宙中的位置。叶文洁逐渐意识到,外星人和他们的技术并不能解决她的问题。」回答笼统,之后开始对小说整体进行评论,答非所问。
从模型给出的答案可发现,一些模型如Llama2[2]可能在预训练过程中见过相关小说,但如果在提问时进行仅根据小说题目进行短文本提问的话,回答并不理想。
两行代码和三个关键结论
在Perplexity-困惑度上,原有LoRA方法的性能在不断恶化,而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果; 在显存消耗上,相比于全参数微调,LongLoRA和原有LoRA都有大幅度的节省。例如,对于8k长度的模型训练,相比于全参数微调,LongLoRA将显存消耗从46.3GB降低到25.6GB。 在训练时间上,对于64k长度的模型训练,相比于常规LoRA,LongLoRA将训练时间从90~100小时左右降低到52.4小时,而全参数微调超过1000小时。
参考文献:
[1] LLaMA team. Llama: Open and efficient foundation language models. Arxiv, 2302.13971, 2023a.
[2] Llama2 team. Llama 2: Open foundation and fine-tuned chat models. Arxiv, 2307.09288, 2023b.
[3] Shouyuan Chen, Sherman Wong, Liangjian Chen, and Yuandong Tian. Extending context window of large language models via positional interpolation. Arxiv, 2306.15595, 2023.
[4] Szymon Tworkowski, Konrad Staniszewski, Mikolaj Pacek, Yuhuai Wu, Henryk Michalewski, and Piotr Milos. Focused transformer: Contrastive training for context scaling. Arxiv, 2307.03170, 2023.
[5] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. In ICLR, 2022.
微信扫码关注该文公众号作者