将26个token压缩成1个,新方法极致节省ChatGPT输入框空间( 三 )


文章插图
 
然而更重要的是,与指令缓存相比,gist 缓存有着除延迟之外的关键优势:将 26 个 token 压缩为 1 个可以在输入上下文窗口中腾出更多空间,这受到绝对位置嵌入或者 GPU VRAM 的限制 。特别是对于 LLaMA-7B,KV 缓存中的每个 token 需要 1.05MB 的存储空间 。尽管在测试的 prompt 长度下,KV 缓存相对于 LLaMA-7B 推断所需的内存总贡献微不足道,但一个越来越常见的场景是开发人员在大量用户之间缓存许多 prompt,存储成本很快就会增加 。在存储空间相同的情况下,gist 缓存能比完整指令缓存多 26 倍的 prompt 。




推荐阅读