内存市场的“黑色星期五”与技术乌龙的导火索

2026年3月25日,全球内存芯片行业遭遇剧烈震荡。开盘不到两小时,SK海力士跌近6%,三星跌4.8%,带动韩国KOSPI指数大跌3%;美股市场方面,美光科技跌7%,闪迪跌6.8%。这场“黑色星期五”的导火索是谷歌研究院发布的一篇关于 TurboQuant 压缩算法 的博客。市场误以为该算法能将 AI大模型运行时的KV Cache存储需求降低6倍,从而打破了“AI对内存需求无限增长”的行业共识,引发了恐慌性抛售。然而,这项研究早在11个月前就已上传至arXiv,此次“爆红”本质上是资本市场在极度FOMO(恐慌性买入)情绪下的非理性反应。

TurboQuant 的技术内核:实现近乎无损的向量量化

KV Cache 是大模型在推理过程中为了提升效率,将历史 token 信息以键值对形式存储在 GPU 显存中的机制。其消耗的不仅是容量,更是内存带宽。TurboQuant 算法通过两步策略解决了传统向量量化方法中“量化常数”带来的额外开销问题:

  1. 随机旋转量化(TURBOQUANTmse):通过施加随机旋转矩阵改变向量坐标分布,使其服从可预测的 Beta 分布,从而可以直接使用预计算的最优标量量化表,使额外开销直接归零
  2. QJL 变换(量化约翰逊-林登斯特劳斯变换):利用仅 1bit 的资源处理残差误差,保证了内积估计的无偏性,从根本上避免了精度损失。

实验数据显示,在 NVIDIA A100 GPU 上,4-bit 精度的 TurboQuant 在注意力计算速度上比传统 PyTorch 基线快约 8 倍;在“大海捞针”测试中,其检索性能与全精度基线几乎持平(得分达 0.997)。

逻辑误读:局部算法优化不等于行业需求崩塌

市场对 TurboQuant 的技术应用范围存在根本性的误读。TurboQuant 优化的对象仅限于 AI 大模型推理阶段的 KV Cache,这属于软件层的局部优化。而支撑 AI 内存需求的核心支柱包含三个部分:

  • 模型权重的存储(基础需求)
  • 训练阶段产生的激活值和梯度(训练阶段核心需求)
  • 推理阶段的 KV Cache(TurboQuant 优化的部分)

即便 KV Cache 的存储需求大幅下降,前两个核心内存需求部分依然没有受到触及。市场试图用一个局部优化来推导整个内存产业的需求崩塌,在逻辑上是致命的错误。

核心矛盾的本质:从“容量瓶颈”到“带宽解放”

当前 AI 行业对内存芯片的核心矛盾并非“存不够”,而是 “传不快”,即内存带宽问题。这正是 HBM(高带宽内存)成为核心硬件的原因——其价值在于极高的传输速度,而非单纯的存储容量。TurboQuant 通过压缩数据量,实际上是减少了数据传输量,从而解放了内存带宽,提升了 GPU 计算核心的利用效率。因此,该算法本质上是在优化硬件利用率,而非削减硬件需求。