近期,来自华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动 。通过将浅层隐藏状态有选择地整合到深层中,DenseSSM 保留了对最终输出至关重要的精细信息 。DenseSSM 在保持训练并行性和推理效率的同时,通过密集连接实现了性能提升 。该方法可广泛应用于各种 SSM 类型 , 如 Mamba 和 Re.NET 。随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑 。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能 。过去一年 , 人们目睹了 LLaMA、ChatGLM 等模型的诞生,它们基于 Transformer 架构 , 采用多头自注意力(MHSA)机制来捕捉词汇间的复杂关系,尽管 MHSA 模块在模型中扮演着核心角色,但其在推理过程中对计算和内存资源的需求却极为庞大 。具体来说,对于长度为 N 的输入句子,自注意力的计算复杂度高达 O (N^2) , 而内存占用则达到了 O (N^2D),其中 D 是模型的维度 。
为了应对这一挑战,最新的研究致力于简化 Transformer 架构,以降低其在计算和空间上的复杂度 。研究者们探索了多种创新方法 , 包括卷积语言模型、循环单元、长上下文模型,以及状态空间模型(SSMs) 。这些新兴技术为构建高效能的 LLMs 提供了强有力的替代方案 。SSMs 通过引入高效的隐藏状态机制,有效处理长距离依赖问题,同时保持了训练的并行性和推理的高效率 。隐藏状态能够在时间维度上传递信息,减少了在每一步中访问历史词汇的计算负担 。通过状态转移参数 A,隐藏状态能够将前一时间步的信息传递至当前时间步,实现对下一个词汇的自回归预测 。
尽管隐藏状态在 SSMs 中起着至关重要的作用,但其在以往的研究中并未得到充分研究 。不同层的权重和隐藏特征包含了从细粒度到粗粒度的多层次信息 。然而,在早期的 SSMs 版本中 , 隐藏状态仅在当前层内流动,限制了其传递更深层信息的能力,从而影响了模型捕获丰富层次信息的能力 。
为了解决这个挑战,华为诺亚方舟实验室的科研团队发表了新工作《DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models》, 提出一个适用于各类 SSM 模型例如 Mamba 和 RetNet 的 DenseSSM 方法,该方法有选择地将浅层隐藏状态整合到深层 , 保留了对最终输出至关重要的浅层细粒度信息 , 以增强深层感知原始文本信息的能力 。

文章插图
- 论文链接:https://arxiv.org/abs/2403.00818
- 项目主页:https://Github.com/WAIlordHe/DenseSSM

文章插图
上标 “l” 表示第 l 个块 。其中,Θ(·) 是从 SSM 模块的最后一个输出到输入的转换 , 例如卷积和前馈网络(FFN) 。从公式 (7) 可以看出,从第 (l-m) 层到第 l 层的隐藏信息传递需要经过 m 个变换块和 m 次 BC 矩阵乘法 。这样复杂的计算过程可能导致显著的信息丢失 , 这意味着在第 l 层尝试检索浅层的某些信息变得非常困难和不清晰 。
方法
密集(Dense)隐藏层连接
在上述分析中发现随着层深度的增加,SSM 中重要隐藏状态的衰减 。因此,DenseSSM 提出了一种密集连接的隐藏状态方法 , 以更好地保留来自浅层的细粒度信息,增强深层感知原始文本信息的能力 。对于第 l 个块,DenseSSM 在其前 m 个块中密集连接隐藏状态 。

文章插图
首先,收集浅层隐藏状态,并引入一个选择性转换模块 φ,同时将它们投影到目标层的子空间并选择有用的部分:

文章插图
操作是融合中间隐藏向量和当前隐藏状态的函数 。具有所提出的密集隐藏层连接的 SSM 被称为 DenseSSM, 下图为递归模式的 DenseSSM 示例 。

文章插图

文章插图
DenseSSM 也可以基于卷积模式以实现高效训练 。根据状态空间模型(SSM)的公式可以得到:

文章插图
推荐阅读
- 前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
- BentoML:如何使用 JuiceFS 加速大模型加载?
- 用 80 年代的技术攻破大模型:研究人员让 AI 防线接近承受极限
- GitHub顶流"Web OS"——运行于浏览器的桌面操作系统、用户超100万、原生jQuery和JS编写
- 提升网站排名转化率,先学会关键词挖掘的四种方法
- SQL优化的七个方法,你会哪个?
- Rust中的数据可视化指南
- 什么是网络中的路由器?核心功能解释
- SEO快速排名的方法!? seo快速排名案例
- 介绍一下目前最先进的电动汽车
