DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升( 三 )


DenseRetNet 的实验
DenseRetNet 模型的大小和超参数设置详细列出如下 。此外,DenseRetNet 模型中还进一步集成了全局注意力单元(GAU) 。GAU 将注意力机制与前馈网络(FFN)块结合为一个单元,这使得模型能够同时进行通道混合和 token 混合 。与原始的 GAU 不同,多头机制仍然被采用以实现多尺度的指数衰减,这种设计旨在提高模型对不同尺度特征的捕捉能力,从而提升性能 。

DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

文章插图
在通用语料库以及包括常识推理和问答在内的多种下游任务上,对 DenseRetNet 模型进行了评估 。实验结果的比较表格显示,DenseRetNet 模型在 Wikitext 和 LAMBADA 语料库上取得了更低的困惑度 。此外,在零样本和少样本设置的下游任务中,DenseRetNet 表现出了显著的优势 。与 RetNet 相比,DenseRetNet 显著提升了性能,并且在与基于 Transformer 的语言模型的比较中,实现了更优越的性能表现 。这些结果表明,DenseRetNet 在处理自然语言处理任务时 , 具有强大的能力和潜力 。
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

文章插图
DenseMamba 的实验
下表详细列出了 DenseMamba 模型的参数设置 。由于 DenseMamba 使用的分词器相比于 Mamba 模型中使用的 GPT-NeoX 分词器规模较?。??耸共问??肯嗥ヅ洌?作者在模型中增加了两层 。除此之外 , 模型结构和其他训练设置均遵循了 Mamba 论文中的描述 。具体而言,对于 360M 参数的模型 , 学习率被设定为 3e-4;对于 1.3B 参数的模型,学习率被设定为 2e-4 。在这两种情况下,均没有采用 dropout 技术 。
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

文章插图
下表比较了 DenseMamba 与相对应模型的性能 。DenseMamba 在测试集上表现出卓越的困惑度和准确性 , 优于 Mamba 和其他基于 Transformer 的模型 。
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

文章插图
总结
文章提出了一个新的框架 ——DenseSSM(密集状态空间模型) , 旨在通过增强隐藏信息在不同层之间的流动来提升状态空间模型(SSM)的性能 。在 SSM 中,隐藏状态是存储关键信息的核心单元,更有效地利用这些状态对于模型的基本功能至关重要 。为了实现这一目标,作者提出了一种方法,即从浅层收集隐藏状态,并将它们有选择性地融合到深层的隐藏状态中,这样可以增强 SSM 对文本低层信息的感知能力 。
DenseSSM 方法的设计考虑到了保持 SSM 原有的优点,如高效的自回归推理能力和高效的并行训练特性 。通过将 DenseSSM 方法应用于流行的架构,例如 RetNet 和 Mamba,作者成功地创造了具有更强大的基础语言处理能力的新架构 。这些新架构在公共基准测试中表现出了更高的准确性,证明了 DenseSSM 方法的有效性 。




推荐阅读