将26个token压缩成1个，新方法极致节省ChatGPT输入框空间( 三 ) _ChatGPT

文章插图

然而更重要的是，与指令缓存相比，gist 缓存有着除延迟之外的关键优势：将 26 个 token 压缩为 1 个可以在输入上下文窗口中腾出更多空间，这受到绝对位置嵌入或者 GPU VRAM 的限制。特别是对于 LLaMA-7B，KV 缓存中的每个 token 需要 1.05MB 的存储空间。尽管在测试的 prompt 长度下，KV 缓存相对于 LLaMA-7B 推断所需的内存总贡献微不足道，但一个越来越常见的场景是开发人员在大量用户之间缓存许多 prompt，存储成本很快就会增加。在存储空间相同的情况下，gist 缓存能比完整指令缓存多 26 倍的 prompt 。

将26个token压缩成1个，新方法极致节省ChatGPT输入框空间( 三 )

推荐阅读

头发出油是什么原因导致的头发出油是什么原因导致的头发痒

摇滚乐■盘点美国五大殿堂级乐队，你都认识吗？

中国网|?蚂蚁定价68.8元全球最大规模IPO即将在A股诞生

『港股挖掘机』宝胜国际(03813)一季度预期盈转亏至1.67亿元

普洱茶干茶外形特点,如何区分龙井43号和群体种

男子一个月来拨打23次120，入院后却神秘消失！真相让人愤怒

[德普手指受伤惊悚音频曝光]德普手指受伤惊悚音频曝光医护在家中四处找残肢

中捷精工|中捷精工议价能力弱致售价大幅下滑综合毛利率走低

|万茜为显瘦真“拼”，穿牛仔裤也要用两条拉链，一般人学不来

小心！黑客以假凭证过期通知散布恶意程序

穿搭|哪怕再有钱，家里装修也别太华丽，学她家这样装温馨舒适更实用！

一只可可zz|我沦陷了，汉服也能穿出“中世纪吸血鬼”的效果？帅气又魅惑

『不用』海拔4100多米，“我们再也不用为吃新鲜蔬菜发愁了”

「格式化孤单」配得上你的梦想（荐读），稻盛和夫：愿你的努力

文棚|12家企业拟落户古镇！古镇携手深圳打造战略新兴产业基地

『书房』书房隔断怎么做书房做隔断要注意什么

[春季孩子]春季孩子流鼻血的原因

肌性斜颈能彻底治好吗

女人到了30岁，都开始喜欢这三种男人了三十岁女人

台州晚报|台州男子12年未见儿子，以为在英国留学！原来是妻子……