文章插图
然而更重要的是,与指令缓存相比,gist 缓存有着除延迟之外的关键优势:将 26 个 token 压缩为 1 个可以在输入上下文窗口中腾出更多空间,这受到绝对位置嵌入或者 GPU VRAM 的限制 。特别是对于 LLaMA-7B,KV 缓存中的每个 token 需要 1.05MB 的存储空间 。尽管在测试的 prompt 长度下,KV 缓存相对于 LLaMA-7B 推断所需的内存总贡献微不足道,但一个越来越常见的场景是开发人员在大量用户之间缓存许多 prompt,存储成本很快就会增加 。在存储空间相同的情况下,gist 缓存能比完整指令缓存多 26 倍的 prompt 。
推荐阅读
- 真有这么恐怖?巴菲特将AI的危险程度比作原子弹
- 一篇读懂Java工厂设计模式
- 制服|5月起将会有吉星帮助的几个星座,好运连连,吉上加吉!
- 云襄传|云襄传:福王即将上线,利用明珠郡主接近云襄,舒亚男情敌来了
- 诸葛亮|诸葛亮管理不当致使季汉两大将身亡,他应该承担责任吗?
- 王俊凯|大瓜!当红男明星将女友装进行李箱带进酒店,两人分别时依依不舍
- 芒果台|芒果台这档以女性为主的推理真人秀,是否成功将综艺本土化了?
- 王丽坤|和乔振宇同居八年,陷“夜光麻将”丑闻,褪去画皮后真实的王丽坤
- 肖战|肖战新剧将空降官宣?各营销号纷纷开始预热,粉丝翘首以盼好期待
- 赵丽颖|又一新谍战剧将至,全员演技实力派,网友:终于有剧可追了
