作者:油醋

文章插图
图片来源:无界 AI 风格模型(宋韵山水)
提出Transformer的那篇论文《Attention is All You Need》问世已经是六年前的事了 。当初的8位论文作者有6人出自谷歌,但到现在大多也已转身寻找新的故事 。
Lukasz Kaiser去了OpenAI,他曾经谷歌大脑的同事Noam Shazeer成立了Character AI,估值已经超过10亿美元 。另外两位同事Ashish Vaswani和Niki Parmar在创立了AI软件开发公司Adept AI Labs后,把这个同样估值超过10亿的初创公司交给了另一位联合创始人,又开始下一次创业了 。
只有Llion Jones,这个从威尔士一个小村庄里走出来的程序员,还留在谷歌 。他曾经谈起这个并不够学术的论文标题的由来,是对披头士的那首《All You Need is Love》的简单致敬 。
而利用注意力机制来提高模型训练速度的Transformer架构,确实让AI从实验室深处的极寒之地里走出来了 。它成为当下这场生成式AI浪潮无可争议的基础 。某种程度上,上面提到的所有人,都没有真正离开这篇论文 。
Mikolov在2010年提出RNN,这个框架在7年后被Transformer取代 。而在Transformer问世后的一个相似时间周期后,其高内存消耗和高推理成本的局限性也开始显现出来 。
替代者也跃跃欲试了 。
“不可能三角”

文章插图
图源:《Retentive.NETwork: A Successor to Transformer for Large Language Models》
Transformer的自注意力机制增强了模型并行计算的能力,并且正契合了GPU对大规模数据进行并发处理的设计倾向 。但Transformer在面对大型数据集和较长输入序列时,需要的计算量会陡增 。
于是并行训练能力、性能和低成本推理,逐渐成为Transformer框架下的“不可能三角” 。
近日,微软研究院和清华大学的研究团队提出了一个新的框架RetNet(Retentive Network)来代替Transformer,并表示RetNet可以打破这个“不可能三角” 。
“这就像是M1芯片之于笔记本电脑 。”一位产品经理在推特上这样形容RetNet 。
O(N)困境
在这个“不可能三角”中,RetNet选择的突破口是推理成本 。
由于使用了自注意力机制,Transformer模型展现出较高的训练并行性,同时在机器翻译、语言建模等任务上也取得了很好的表现 。但取代了RNN的自注意力机制同样成为一种桎梏 。
这集中体现在时间复杂度这个标尺上 。在描述算法复杂度时,常用O(n)、O(n^2)、O(logn)等表示某个算法在计算耗时与输入数据量(n)之间的关系表示 。
O(n)意味着数据量的增加与算法耗时成正比,O(n^2)意味着像冒泡排序那样,算法耗时是数据量的n^n倍 。计算耗时越长,算法越复杂,也就意味着推理成本越高 。

文章插图
图源:博客园
拿文本翻译做个例子,在处理长文本序列时(假设文本长度为N),自注意力机制的时间复杂度为O(N^2),当N过大时,翻译速度很低 。这也是为什么当前的大语言模型,在文本token长度上的进展颇为受人关注 。
虽然Transformer可以有效训练并行性,但由于每步的O(N)复杂度以及内存绑定的键值缓存,它们的推理效率低下 。这种低效率使得Transformer模型会消耗大量GPU内存并降低推理速度,因此不适合部署 。
从O(N)到O(1)
O(1)无疑是最优的选择,这意味着无论数据输入量n如何变化,算法耗时都是一个常量 。
RetNet框架的最大的惊艳之处就在这里,它将O(N)降维到了O(1) 。
RetNet引入了一种多尺度保留机制(multi-scale retention mechanism)来取代多头注意力 。作为三种计算范式之一的分块循环表示,可在内存和计算方面实现高效的O(1) 推断,从而显著降低部署成本和延迟 。
这意味着RetNet的推理成本是固定不变的 。在一系列对比RETNet与Transformer及其变体的实验中,对比7B模型和 8k序列长度,RetNet的解码速度比带键值缓存的Transformers快8.4倍,节省70%的内存 。RetNet的推理延迟变化对输入数据量的大小变化并不敏感,这也让它能够包容更大的吞吐量(Throughput) 。
测试结果表示,在训练期间RetNet比标准Transformer节省了25-50%的内存和7倍的加速 。
一些重要的实验结果

文章插图
图源:《Retentive Network: A Successor to Transformer for Large Language Models》
O(1)为RetNet在GPU内存方面带来的优势是,它完全不随token数增加而变化 。
推荐阅读
- 归于平静看淡一切释然的网名心就不累了 有诗意伤感网名大全
- 看淡一切的稳重成熟网名男人味足 成熟看透的网名
- 首个线性注意力Transformer大模型:1750亿参数,速度、精度更优
- 三毛:夜深花睡
- 时间冲淡一切优美句子 时间能治愈一切的经典名句
- 金星:前妻貌美如花,离婚时还怀着孕,感谢丈夫10年包容我的一切
- 不完美受害人:一切都是赵寻自导自演!辛路是帮凶,成功洗白出狱
- 大S被曝公开承认一切,Makiyo宣布离婚:七仙女如今差距有多大
- SHE三人学历差距超大,20年后不同境遇证明学历不代表一切!
- 谈崩了!美国演员工会宣布罢工 成员一切工作暂停
