AI摘要:谷歌展示的TurboQuant算法将使AI内存需求暴降6倍,存储巨头股价跳水。该算法通过PolarQuant和QJL两招,无需额外开销,实现高精度零损失,大幅提升处理速度。这对AI行业影响巨大,对普通用户也是好消息,目前已在开发者圈子引发关注。
最近美光、三星、西数这些平时稳如老狗的存储巨头们,集体懵圈了!供应链没断,财报也没问题,结果股价却来了个大跳水,你说冤不冤?仔细一盘,罪魁祸首原来是谷歌刚展示的一篇论文,将在下个月的ICLR 2026上正式发表。这篇论文搞出了一个名叫TurboQuant的全新压缩算法,能把AI大模型推理时最吃内存的“KV Cache”这块,生生压缩至少6倍,而且宣称“精度零损失”。消息一出,市场纷纷解读为“以后跑AI对内存的需求将大幅降低”,于是存储巨头们先跌为敬。
首先,KV Cache可以理解为AI在跟你聊天时的“短期记忆草稿本”。现在的大模型支持几十万字的长上下文,为了让AI记住前面聊了啥,必须把中间产生的海量数据临时存起来。不过随着上下文越来越长,这本“草稿本”需要的物理内存空间也会呈指数级爆炸。这也导致了一个现实的问题:现在的AI大模型,算力往往不是瓶颈,内存反而是最大的累赘。这就好比你大脑转得飞快,但手边做记录、标重点的草稿纸先用完了,直接能给你干憋屈。为了省内存,以前业界搞“量化”,简单来说把高精度的数据砍成低精度来描述,但这玩意儿治标不治本,不仅会损失AI“智商”,很多时候还需要额外存一堆“量化常数”,一来二去,省下的空间又被吃回去了。
谷歌这次的TurboQuant路子很野,它直接用两招把额外开销干到了零。第一招叫PolarQuant(极坐标量化)。以前AI记录数据都是用传统X、Y、Z坐标系描述的,谷歌团队发现这属实太费事了,于是直接换成“极坐标”来描述,变成了“朝多少度方向走几个路口”就行。这么一改,不仅信息量一点没少,描述还变得更加简单紧凑,直接省掉了坐标系本身的大量额外开销。而第二招就叫QJL(量化JL变换)。极坐标压缩完,可能难免会出现一些微小误差。这时候TurboQuant会甩出一个仅占1 bit的“补丁包”,专门用来做矫正,把那些偏离的误差强行拉回正轨。这一套组合拳打下来,效果那叫一个炸裂:官方表示,不需要任何额外的微调和训练,直接把庞大的键值缓存量化到了3 bit,内存占用暴降6倍。不止内存省了,处理还更快。比如在英伟达H100显卡上,其处理速度狂飙了8倍。最离谱的是,在超大规模长文本测试里,它的准确率居然是满分,实现了“精度零损失”。注意这不是“接近满分”或者“几乎满分”,而是真正的“满分”,也就是说结果和未经过压缩的版本完全一致。
网上流传有一句话,这是AI圈的另一个“DeepSeek时刻”,阿烨觉得真没开玩笑。以前大家为了跑大模型,只能疯狂砸钱买那些贵得离谱的高配显卡和海量内存。现在谷歌这波操作直接摊牌不装了,甚至把牌桌都给掀了。以后把数据压一压,原先的显存、内存能干以前6倍的活儿,这你受得了吗?这对于整个AI行业来说,妥妥的是一颗深海炸弹,意味着长上下文AI推理的成本、对内存的需求,可能要迎来断崖式暴跌。这也是为啥美股那帮存储大厂脸都绿了——一旦AI不需要那么多物理内存了,谁还来当冤大头啊?
不过,华尔街资本家亏不亏钱咱不管,这事儿对普通等等党来说,也无疑是个天大的好消息。因为咱们捣鼓PC硬件、搞装机DIY,内存条这块的预算压力可能真要有转机了。而且往大了说,以前想在本地跑个稍微聪明点的大模型,动不动就得插满64G甚至128G内存,看着空瘪的钱包只能像个无能的丈夫一样哀叹。但如果谷歌这技术真的落地普及,说不定16G、32G内存都能轻松在本地无损跑起百亿参数的AI,想想就很刺激啊。还更别提智驾汽车、手机这些对内存更加敏感的领域了。
总之,目前TurboQuant已经在开发者圈子里炸开了锅,各路大神都在疯狂尝试复现它的代码。虽然要把这玩意儿完美融入现有的AI大基建可能还有一段路要走,但方向基本已经明确了。以后不能老想着无脑堆硬件,而是要想尽办法降低硬件开销、提高效率。谷歌这次也再次证明了,在堆硬件之外,极致的算法优化,依然有着一把掀翻桌子的可能。啥也不说,静静等待这项技术真正实装的那一天吧。说不定下一次新装机的时候,咱们的钱包就能实打实地省下一大笔钱了。
—— 评论区 ——