大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类( 二 )


文章插图
和点扩展提示模板

大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类

文章插图

大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类

文章插图

大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类

文章插图
- 骨架提示模板 。为了使输出的骨架简短且格式一致,以提高效率和便于提取要点,骨架提示模板(1)精确描述了任务,(2)使用了两个简单的示范,(3)提供了部分答案「1」为LLM继续写作 。
- 点扩展提示模板 。点扩展提示模板描述点扩展任务,并提供部分答案 。研究人员还提供了指示「在1ー2个句子中非常简短地写出」的说明,以便LLM使答案保持简洁 。
- 并行点扩展 。对于只能访问API的专有模型可以发出多个并行的API调用 。对于开源模型,让模型将点扩展请求作为批处理 。
为什么SoT降低了解码延迟?
首先要对SoT为什么能够带来显著的端到端加速有一个高层次的理解 。为了简单起见,在这里集中讨论点扩展阶段 。
具有并行API调用的模型 。普通方法向服务器发送一个API请求,而 SoT 并行发送多个 API 请求以获得答案的不同部分 。
根据经验,研究人员观察到,在论文中使用的API的延迟与响应中的token数呈正相关 。如果请求数量没有达到速率限制,SoT显然会带来加速 。
采用批量解码的开源模型 。普通的方法只处理一个问题,并按顺序解码答案,而SoT处理多个点扩展请求和一批答案 。
实验结论
实验数据集:使用Vicuna-80数据集,它由跨越9个类别的80个问题组成,如编码、数学、写作、角色扮演等 。
模型:对11个最近发布的模型进行SoT测试,其中包括9个开源模型和2个基于API的模型) 。
大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类

文章插图
评估的模型,所有的开源模型都是根据不同大小的LLaMA模型进行微调的
效率评估:
1. SoT减少不同模型上的端到端延迟
图4a显示了应用SOYT后,每个模型在所有问题类别中的平均加速 。
应用SoT后,11个模型中,有6个模型速度有2倍以上的提升(即LLaMA2-Chat-7B,LLaMA2-Chat-13B,Vicuna-7B V1.1,OpenChat-13B,Vicuna-33B V1.3,UltraLM-13B) 。
在ChatGPT-3.5,Vicuna-13B V1.3和Vicuna-7B V1.3上则有1.8倍以上的速度提升 。
但在StableVicuna-13B和Claude中,速度几乎没有提升 。
如果排除数学和代码的问题类别,速度提升会较排除前略高,如图4b所示 。
2. SoT减少不同类别问题的端到端延迟
【大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类】图5显示了每个问题类别在所有模型中的平均速度提升 。
那些SoT能够提供高质量答案的问题类别标记为绿色,不能的其他问题类别标记为红色 。
当前的SoT已经可以提升所有类别问题的速度 。
但对于那些SoT可以提供高质量答案的5个问题类别(即知识、常识、通用、角色扮演、虚拟情景),SoT可以将整体答案生成过程加速1.95倍-2.27倍 。
大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类

文章插图
3. SoT和正常生成的延迟对比
图6显示了模型正常生成和SoT生成的绝对延迟的比较 。与正常生成相比,应用SoT的模型生成的速度提升是显而易见的 。
而解码阶段是内容生成端到端延迟的主要原因 。
因此,尽管SoT在骨架阶段比正常生成具有较高的预填充延迟,但这对总体延迟和总体速度提升几乎没有影响 。
大模型速度狂飙2.39倍!清华联手微软首提SoT,让LLM思考更像人类

文章插图
SoT和正常生成的延迟对比 。对于开源模型,预填充和解码阶段的延迟分解以不同的颜色显示 。对于基于API的模型,研究不记录此类延迟分解信息:标记为「decode」的柱状图表示预填充和解码阶段的整体延迟 。
质量评估:
为了比较正常的顺序生成(以下简称为正常)和SoT生成的答案质量,研究采用了两个基于LLM的评估框架: FastCha和LLMZoo 。
评估过程是向LLM评判器(本研究中为ChatGPT-3.5)展示一个问题和一对答案(由正常和SoT生成),并询问其偏好 。
回答可能是SoT的答案胜出、与正常答案并列、输给正常答案 。
1. 整体质量:
图7显示了使用FastChat和LLMZoo两个指标下使用SOT的模型在所有问题下的赢/平/输率 。
在SoT严格优于基线时,两个指标之间存在差异(49.0% vs.10.4%) 。
但这两个指标都认为,在超过76%的情况下,SoT并不比基线(正常生成)差 。


推荐阅读