大模型可解释性你能理得清吗?综述已来,一文解你疑惑


大模型可解释性你能理得清吗?综述已来,一文解你疑惑

文章插图
图片来源:由无界 AI 生成
【大模型可解释性你能理得清吗?综述已来,一文解你疑惑】大规模语言模型在自然语言处理方面展现出令人惊讶的推理能力,但其内在机理尚不清晰 。随着大规模语言模型的广泛应用,阐明模型的运行机制对应用安全性、性能局限性和可控的社会影响至关重要 。
近期 , 中美多家研究机构(新泽西理工学院、约翰斯?霍普金斯大学、维克森林大学、佐治亚大学、上海交大、百度等)联合发布了大模型可解释性技术的综述,分别对传统的 fine-tuning 模型和基于 prompting 的超大模型的可解释性技术进行了全面的梳理,并探讨了模型解释的评估标准和未来的研究挑战 。
大模型可解释性你能理得清吗?综述已来,一文解你疑惑

文章插图
  • 论文链接:https://arxiv.org/abs/2309.01029
  • Github 链接:https://github.com/hy-zhao23/Explainability-for-Large-Language-Models

大模型可解释性你能理得清吗?综述已来,一文解你疑惑

文章插图
解释大模型的难点在什么地方?
为何解释大模型有点难?大语言模型在自然语言处理任务上的惊艳表现引起了社会广泛的关注 。与此同时,如何解释大模型在跨任务中令人惊艳的表现是学术界面临的迫切挑战之一 。不同于传统的机器学习或者深度学习模型,超大的模型架构和海量的学习资料使得大模型具备了强大的推理泛化能力 。大语言模型 (LLMs) 提供可解释性的几个主要难点包括:
  • 模型复杂性高 。区别于 LLM 时代之前的深度学习模型或者传统的统计机器学习模型,LLMs 模型规模巨大,包含数十亿个参数,其内部表示和推理过程非常复杂,很难针对其具体的输出给出解释 。
  • 数据依赖性强 。LLMs 在训练过程中依赖大规模文本语料 , 这些训练数据中的偏见、错误等都可能影响模型,但很难完整判断训练数据的质量对模型的影响 。
  • 黑箱性质 。我们通常把 LLMs 看做黑箱模型,即使是对于开源的模型来说,比如 Llama-2 。我们很难显式地判断它的内部推理链和决策过程,只能根据输入输出进行分析,这给可解释性带来困难 。
  • 输出不确定性 。LLMs 的输出常常存在不确定性,对同一输入可能产生不同输出,这也增加了可解释性的难度 。
  • 评估指标不足 。目前对话系统的自动评估指标还不足以完整反映模型的可解释性 , 需要更多考虑人类理解的评估指标 。
大模型的训练范式
为了更好的归纳总结大模型的可解释性,我们将 BERT 及以上级别的大模型的训练范式分为两种:1)传统 fine-tuning 范式;2)基于 prompting 的范式 。
传统 fine-tuning 范式
对于传统 fine-tuning 范式,首先在一个较大的未标记的文本库上预训练一个基础语言模型,再通过来自特定领域的标记数据集进行 fine-tuning 。常见的此类模型有 BERT, RoBERTa, ELECTRA, DeBERTa 等 。
基于 prompting 的范式
基于 prompting 的范式通过使用 prompts 实现 zero-shot 或者 few-shot learning 。与传统 fine-tuning 范式相同,需要预训练基础模型 。但是,基于 prompting 范式的微调通常由 instruction tuning 和 reinforcement learning from human feedback (RLHF) 实现 。常见的此类模型包括 GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna 等 。其训练流程如下图:
基于传统 fine-tuning 范式的模型解释
基于传统 fine-tuning 范式的模型解释包括对单个预测的解释(局部解释)和对模型结构级别组分如神经元,网络层等的解释(全局解释) 。
局部解释
局部解释对单个样本预测进行解释 。其解释方法包括特征归因(feature attribution)、基于注意力机制的解释(attention-based)、基于样本的解释(example-based)、基于自然语言的解释(natural language explanation) 。
大模型可解释性你能理得清吗?综述已来,一文解你疑惑

文章插图
1. 特征归因旨在衡量每个输入特征(例如单词、短语、文本范围)与模型预测的相关性 。特征归因方法可以分类为: