斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升
新智元报道
新智元报道
【新智元导读】FlashAttention新升级!斯坦福博士一人重写算法,第二代实现了最高9倍速提升。
论文地址:https://tridao.me/publications/flash2/flash2.pdf
FlashAttention-2:更好的算法、并行性和工作分区
端到端训练GPT模型,速度高达225 TFLOP/s
对注意力计算重新排序
更少的non-matmul FLOP(非矩阵乘法浮点计算数)
更好的并行性
更好的工作分区
新功能:头的维度高达256,多查询注意力
注意力基准
未来的工作
作者介绍
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章