苹果推出新图像压缩技术PICO | 体积减少2/3 | 感知压缩新突破 | JPEG AI | 峰值信噪比 | 学习型编解码器 | 熵编码 | 一次性上下文模型 | 创新损失函数

大家好，这里是最佳拍档，我是大飞图像压缩相信大家都不陌生我们手机里拍摄的照片社交媒体上分享的图片都会用到图像压缩的技术这个领域也发展了很长时间比如大家熟悉的JPEG格式已经诞生了超过三十年而就在2026年5月苹果公司悄悄发布了一篇论文可能会彻底改变图像压缩这个领域简单来说

他们用人工智能重新发明了图像压缩技术在保持完全相同的视觉质量的前提下把文件体积压缩到了现有主流标准的三分之一这意味着我们的手机存储空间相当于凭空扩大了三倍意味着将来我们在网络不好的情况下也能秒发高清照片意味着云存储服务商的成本会大幅下降甚至整个互联网的流量结构都可能因此而发生改变

今天这期视频我们就来聊一下这篇论文先把时间拨回到一年多以前 2025年2月国际图像专家组（JPEG）宣布了一个消息 JPEG AI 这项历时多年、被寄予厚望的第一个端到端的学习型图像编码国际标准

正式发布了但是这个里程碑式的事件行业外的人鲜有知道要知道，JPEG标准诞生于1992年三十多年来它一直是人类数字图像的一门基础语言从你手机里的照片，到网页上的图片再到数码相机的存储格式几乎所有的数字图像都在使用JPEG或者基于JPEG衍生的标准三十多年来

无数工程师为了让图像变得更小、更清晰付出了巨大的努力而现在人工智能终于开始接手重写这门语言的语法了但是即便是刚刚发布的JPEG AI 距离真正的感知压缩仍然有相当长的一段距离简单来说感知压缩就是直接针对人眼的视觉体验来优化压缩算法而不是针对某个数学指标

这听起来好像没什么特别，但实际上这是图像压缩领域几十年来一直想要实现却始终未能真正落地的终极目标工程师们早就知道传统上用来衡量压缩质量的指标峰值信噪比（PSNR）其实和人眼看到的好不好看关系并不大一张图片在PSNR这个数学指标上得了高分

人眼看起来却可能觉得平平无奇甚至会有明显的不适感而另一张PSNR偏低的图片人眼却可能觉得细节丰富、质感真实优化数学指标，和优化人眼感知本质上是两件完全不同的事情几十年来，从最初的JPEG 到后来的HEVC 也就是我们常说的H.265 再到最新的VVC（H.266）和JPEG AI

几乎所有编解码器的设计逻辑都还是在数学指标的框架里兜圈子感知压缩一直像是学术论文里的远景目标是实验室里的玩具而就在整个行业都以为感知压缩还要再等个三五年的时候苹果的一支工程师团队悄悄在arXiv上发布了一篇论文给出了他们的答案这项技术的代号叫做PICO 全称是Perceptual

Image Codec 也就是感知图像编解码器这个名字直接点明了它的目标不是让数学指标更好看而是让人眼满意在正式介绍PICO的技术细节之前我想先给大家简单介绍一下图像压缩到底在做什么

只有理解了这个最基本的问题我们才能真正明白苹果这项技术的意义把一张照片存成文件本质上可以说是一道忘记什么、记住什么的取舍题我们的存储空间是有限的网络带宽也是有限的所以我们不可能把一张照片的所有像素信息都原封不动地保存下来我们必须扔掉一部分信息

同时要让看这张照片的人尽量察觉不到我们扔掉了什么不同的编解码器遵循的是不同的扔法 JPEG、AV1、VVC这些我们现在正在使用的传统编解码器都是工程师手工设计的规则系统它们的工作流程大致是这样的首先把一张完整的图像切成一个个8×8或者16×16的小方块然后对每个小方块进行离散余弦变换

把空间域的信息转换成频率域的信息接着对变换后的系数进行量化扔掉那些人眼不太敏感的高频信息最后再进行熵编码把数据进一步压缩每一步都是几十年积累的人工经验这类系统可以在PSNR这样的数学指标上表现得极好

因为它们的设计本质上就是面向减少像素误差的也就是说它们的目标是让压缩后的图像和原始图像在像素值上尽可能接近但问题在于人眼并不是一个像素误差计人眼的视觉系统是经过了数百万年进化而来的极其复杂的系统它对不同类型的信息有着截然不同的敏感度比如，人眼对亮度变化的敏感度远高于对色彩变化的敏感度

对边缘和纹理的敏感度远高于对平滑区域的敏感度对文字和人脸的敏感度更是高得惊人当你把一张街景照片压缩得很小的时候 PSNR可能依然保持在一个相当体面的水平但是你会看到建筑的边缘变得模糊路牌上的文字变得难以辨认行人的面部特征变得扭曲而这些，恰恰是人眼最先察觉的东西

这就是传统编解码器的根本局限性它们是按照数学公式来判断什么信息重要、什么信息不重要而不是按照人眼的感知来判断的学习型编解码器的出现理论上打开了一扇全新的大门神经网络可以直接针对人的感知进行端到端训练

而不是针对某个数学公式我们可以给神经网络看数百万张图片让它自己学习哪些信息是人眼真正关心的哪些信息是可以安全扔掉的这听起来简直完美但是在PICO出现之前已有的感知型学习编解码器都存在着各种各样的问题比如速度慢、跨设备兼容性差、无法灵活控制码率等等根本无法应用到消费级产品中

而苹果的PICO编解码器就是为了解决所有这些问题而诞生的研究团队系统探索了数百万种模型配置并且引入了三项关键的技术创新终于实现了感知压缩的工程化落地我们先来看第一个核心问题熵编码慢怎么办？

熵编码是图像压缩过程中非常关键的一步为了把文件压得更小编解码器需要用熵模型来精确估计每个像素的信息量信息量越大的像素我们给它分配越多的比特信息量越小的像素我们给它分配越少的比特这样就能在不损失太多质量的情况下最大限度地压缩文件体积目前最精确的熵编码方法叫做自回归编码

它的工作原理是这样的每压缩一个像素都要先看看周围已经压缩好的像素根据这些像素的值来预测当前像素的概率分布然后再根据这个概率分布来分配比特这就像一个厨师每放一块食材都要先回头看看锅里的状态尝一尝味道才能决定下一步放什么调料这种方法确实非常精确，但也极慢

因为它是完全串行的，无法并行计算这也是为什么之前很多学习型编解码器速度都很慢的主要原因它们都采用了自回归熵模型虽然压缩效果很好但速度根本无法满足实时应用的需求 PICO的解法非常巧妙他们提出了一种叫做一次性上下文模型（One-shot Context Model）的技术

他们发现，在熵编码的所有参数中尺度参数是对压缩性能影响最大的一个于是他们把这个最关键的尺度参数单独拆出来在一次前向传播中全部计算完成不再需要来回等待而其余的参数则可以并行计算这样一来既保留了自回归编码的精度又绕开了它的速度瓶颈

实验结果显示如果去掉这个一次性上下文模型 PICO的整体性能会下降10.28% 但是加上它之后模型的运行速度几乎不受任何影响这是一个非常了不起的成就相当于鱼和熊掌兼得了接下来我们看第二个核心问题感知训练会产生幻觉怎么办？现在的感知型学习编解码器大多是基于生成对抗网络（GAN）来训练的

GAN的特点就是能够生成非常逼真的图像它会脑补出一些看起来很真实的细节但这也带来了一个严重的问题那就是这些细节可能是编造出来的比如它可能会把头发丝变成不存在的花纹把平滑的表面变成有纹理的表面甚至会把一个字变成另一个字更麻烦的是，人眼对文字极度敏感哪怕一个字母只是稍微变形了一点点

我们也会立刻察觉出来如果一张照片里的文字因为压缩而变得模糊或者变形哪怕其他部分的质量再好我们也会觉得这张照片的质量很差为了解决这个问题

PICO专门设计了一个叫做TextFidelityLoss的损失函数它会首先用一个现成的文字检测器自动找出图片中的所有文字区域然后在这些区域强制施加严格的像素保真约束同时压制GAN在文字区域的发挥空间也就是说，在非文字区域 GAN可以自由地生成看起来很真实的细节但是在文字区域

它必须严格按照原始像素来重建不能有任何创造实验显示，加上这项损失函数之后文字区域的绝对误差降低了整整一半这就解决了感知压缩中最让人头疼的文字失真问题然后是第三个核心问题图像分块处理会留下色块边界怎么办？

为了在手机芯片上快速运行 PICO和大多数现代编解码器一样会把一张完整的图像切成一块块504×504像素的瓦片分别进行处理，然后再把它们拼回去这样做的好处是可以充分利用手机芯片的并行计算能力大大提高运行速度但这也带来了一个新的问题瓦片边界效应 GAN在训练的时候

倾向于忽略低频色彩的信息这就导致相邻的瓦片之间经常会出现可见的色差类似于我们修图的时候没有拼好的感觉这种色差虽然很细微但人眼却很容易察觉会严重影响整体的视觉体验为了解决这个问题研究团队专门引入了TilingArtifactLoss 这是一种多分辨率的L1损失函数

它会强制模型在多个不同的空间频率上保持色彩的一致性特别是在瓦片的边界区域这项措施让瓦片边界的误差也下降了一半以上基本上消除了可见的边界效应解决了这三个核心问题之后 PICO的表现到底怎么样呢？

苹果团队没有只靠基准评测指标说话他们做了一件事情委托第三方平台Mabyduck 组织了一次大规模的人类主观评测这次评测采用的是盲测两两对比的方式他们首先筛选了610位评测者这些评测者都需要通过严格的色盲检测和压缩伪影辨别测试确保他们能够准确地判断图像质量的差异然后

他们给这些评测者展示同一张图片在不同编解码器下的重建结果让他们在不知道哪个是哪个的情况下选择自己认为质量更好的那一个最终，他们一共收集了74 925次配对比较结果然后把这些结果汇总成了贝叶斯ELO分数 ELO分数大家应该都很熟悉就是国际象棋里用来衡量棋手水平的那个评分系统

用ELO分数来衡量图像质量可以非常准确地反映出不同编解码器之间的相对优劣实验结果显示，在相同的视觉质量下 PICO的文件体积只有AV1、AV2、VVC、ECM和JPEG AI这些主流标准的三分之一到二分之一换句话说，存储同样的图片 PICO需要的比特数只有这些标准的30%到43%

即便是对比目前最强的学习型感知编解码器比如HiFiC和MRIC PICO也能节省20%到40%的文件大小这是一个非常惊人的结果要知道，过去十年里图像压缩技术的进步是非常缓慢的从HEVC到VVC，用了整整十年的时间

才实现了大约50%的码率节省而PICO一下子就把这个数字提高到了60%到70% 而且是在感知质量这个更有意义的指标上除了压缩效率之外 PICO在运行速度方面的表现同样令人印象深刻在iPhone 17 Pro Max上 PICO编码一张1200万像素的照片仅需230毫秒解码更是只需要150毫秒

相比而言大多数顶级的机器学习编解码器在NVIDIA V100服务器显卡上运行都比这个速度还要慢值得注意的是论文还专门记录了一个非常有意思的反例在PSNR这个传统的数学指标上 PICO的表现平平甚至不如DCVC-RT和VVC这些传统编解码器这恰好印证了苹果团队的基本判断

优化感知质量和优化数学指标本质上是两个完全不同的方向鱼与熊掌不可兼得当然，PICO也不是完美的它也有自己的局限性论文中也坦诚地指出对于卡通、示意图等高度规则化的合成图像

PICO的压缩效率可能不如传统编解码器因为这类内容天然适合规则驱动的自回归建模而不是基于感知的生成式建模不过，这并不是一个致命的缺陷毕竟我们日常生活中拍摄的绝大多数照片都是自然场景的照片而不是合成图像而且这些局限性丝毫不会掩盖这项工作的重大意义过去三十年，图像压缩的技术进步

几乎都发生在让数字更好看的赛道上从JPEG到HEVC，再到VVC 工程师们一代又一代地优化着PSNR、SSIM这类数学指标而人眼的感知始终是一个被绕开的难题而PICO是第一次有人系统地把这道难题正面拆解从数百万种模型架构的搜索到针对文字和边界的专门损失函数设计再到大规模的人类主观评测

苹果团队把每一个环节都做到了极致并且最终交出了一份可以在手机上实时运行的编解码器它标志着图像压缩技术正式从数学指标驱动进入了人类感知驱动的新时代最后我来介绍一下这项技术背后的团队

这篇论文的通讯作者是奥伦·里佩尔（Oren Rippel）他是苹果的研究员也是压缩领域的一位老面孔早在2017年当时他还在一家叫做WaveOne的初创公司就发表了一篇名为实时自适应图像压缩的论文在那篇论文中他们用神经网络打败了当时所有的主流编解码器同时还维持了实时运行的速度

那篇论文在学界引发了不小的波澜也奠定了奥伦·里佩尔在学习型压缩领域的地位之后同一批核心人员在WaveOne继续深耕又推出了面向视频压缩的ELF-VC编解码器在UVG视频测试集上 ELF-VC相比当时的主流标准H.264实现了44%的码率节省同时运行速度比同类的机器学习编解码器快五倍以上

后来 WaveOne的这支团队整体加入了苹果而这次的PICO 就是这个在学习型压缩领域深耕了近十年的团队带着苹果的算力和平台资源在图像感知压缩领域交出的第一份系统性答卷 PICO的出现

让我们看到了图像领域时隔长久的封印开始松动而它很可能还只是一个开始随着AI技术的不断发展我们还会看到更多基于感知的压缩技术出现未来，不仅是图像视频、音频甚至三维内容都可能会被人工智能重新定义感谢收看本期视频，我们下期再见

苹果推出新图像压缩技术PICO | 体积减少2/3 | 感知压缩新突破 | JPEG AI | 峰值信噪比 | 学习型编解码器 | 熵编码 | 一次性上下文模型 | 创新损失函数 | 人类主观评测 · 全文文字稿