新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。
论文:Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models 论文地址:https://arxiv.org/pdf/2401.04658.pdf 开源地址:https://github.com/OpenNLPLab/lightning-attention
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章