图像压缩的百年困局与AI破局
图像压缩技术是数字时代的基石,从手机拍摄的照片到社交媒体分享的图片,无不依赖于此。JPEG格式已诞生超过三十年,作为人类数字图像的基础语言,它定义了从数码相机到网页图片的存储标准。然而,传统编解码器如JPEG、HEVC(H.265)及最新的VVC(H.266),其设计逻辑始终在数学指标框架内兜圈子,未能真正解决人眼感知与数学误差之间的错位。
“传统上用来衡量压缩质量的指标峰值信噪比(PSNR)其实和人眼看到的好不好看关系并不大。”
长期以来,工程师们致力于优化PSNR等数学指标,力求压缩后图像与原始图像在像素值上尽可能接近。但这种优化往往导致人眼感知体验的缺失:一张PSNR得分高的图片可能显得平淡无奇,而PSNR较低的图片却可能因细节丰富而显得真实。这种数学指标与人类感知的脱节,是图像压缩领域几十年来未能彻底落地的终极目标——感知压缩。直到2026年5月,苹果公司发布论文,提出代号PICO的感知图像编解码器,试图用人工智能重写这门语言的语法。
感知压缩的核心:从数学误差到人眼满意
感知压缩(Perceptual Image Codec)的核心在于直接针对人眼的视觉体验进行优化,而非追求数学指标的最优解。人眼视觉系统经过数百万年进化,对不同信息的敏感度截然不同:对亮度变化、边缘纹理、文字及人脸的敏感度远高于平滑区域和色彩细节。
传统编解码器如JPEG,通过离散余弦变换将图像分块,量化并丢弃人眼不敏感的高频信息,最后进行熵编码。这种基于人工经验规则的系统,虽然能在PSNR上表现优异,却无法理解人眼的感知逻辑。例如,压缩街景照片时,虽然PSNR尚可,但建筑边缘模糊、文字难以辨认、面部特征扭曲等关键感知缺陷会被放大。PICO的出现,旨在通过神经网络端到端训练,让模型自动学习哪些信息是人眼真正关心的,从而实现“忘记什么、记住什么”的精准取舍。
PICO三大创新:解决熵编码、幻觉与色块难题
PICO技术通过三项关键创新,解决了学习型编解码器长期存在的工程化难题:速度慢、生成幻觉、边界色块。
-
一次性上下文模型(One-shot Context Model):针对熵编码中自回归模型速度慢的问题,PICO将影响最大的尺度参数单独拆分,在一次前向传播中完成计算,其余参数并行处理。这一创新在保留自回归精度的同时,绕开了串行计算的速度瓶颈,使模型运行速度几乎不受影响。实验显示,移除该模型会导致性能下降10.28%。
-
TextFidelityLoss损失函数:为解决GAN训练产生的“幻觉”问题,特别是文字失真,PICO引入专门损失函数。通过文字检测器锁定文字区域,强制施加严格的像素保真约束,禁止GAN在文字区域进行创造性生成。实验表明,该措施使文字区域的绝对误差降低了一半。
-
TilingArtifactLoss损失函数:针对图像分块处理导致的瓦片边界色差,PICO引入多分辨率L1损失函数,强制模型在多个空间频率上保持色彩一致性,特别是在边界区域。这一措施使瓦片边界误差下降一半以上,基本消除了可见的边界效应。
性能实测:体积缩减与速度突破
PICO在压缩效率和运行速度上均取得了突破性进展。在压缩效率方面,在相同视觉质量下,PICO的文件体积仅为AV1、AV2、VVC、ECM和JPEG AI等主流标准的三分之一到二分之一。即便对比最强的学习型感知编解码器HiFiC和MRIC,PICO也能节省20%到40%的文件大小。这意味着手机存储空间可凭空扩大三倍,云存储成本大幅降低。
在运行速度方面,PICO在iPhone 17 Pro Max上编码1200万像素照片仅需230毫秒,解码仅需150毫秒。这一速度远超大多数在NVIDIA V100服务器显卡上运行的顶级机器学习编解码器,实现了消费级设备上的实时应用。
| 编解码器/标准 | 相对文件大小 (视觉质量相同) | 备注 |
|---|---|---|
| PICO | 基准 (100%) | 苹果最新感知编解码器 |
| AV1 / AV2 / VVC / ECM / JPEG AI | 200% - 333% | PICO体积为其1/3至1/2 |
| HiFiC / MRIC | 125% - 166% | PICO体积为其4/5至2/3 |
| HEVC (H.265) | ~150% | 过去十年进步缓慢 |
| VVC (H.266) | ~150% | 相比HEVC节省约50% |
主观评测与PSNR的反差
苹果团队并未仅依赖基准测试指标,而是委托第三方平台Mabyduck组织了大规模人类主观评测。评测采用盲测两两对比方式,筛选出610位通过色盲检测和伪影辨别测试的评测者,收集了74,925次配对比较结果,并汇总为贝叶斯ELO分数。
“在相同的视觉质量下,PICO的文件体积只有AV1、AV2、VVC、ECM和JPEG AI这些主流标准的三分之一到二分之一。”
结果显示,PICO在感知质量上的优势显著。然而,在传统的PSNR指标上,PICO的表现平平,甚至不如DCVC-RT和VVC等传统编解码器。这一反例印证了苹果团队的核心观点:优化感知质量和优化数学指标是两个完全不同的方向,鱼与熊掌不可兼得。PICO的成功标志着图像压缩技术从数学指标驱动正式进入人类感知驱动的新时代。
技术局限性与团队背景
尽管PICO表现卓越,但其并非完美无缺。论文指出,对于卡通、示意图等高度规则化的合成图像,PICO的压缩效率可能不如传统编解码器。这是因为此类内容天然适合规则驱动的自回归建模,而非基于感知的生成式建模。不过,鉴于日常生活中绝大多数照片为自然场景,这一局限性并不致命。
PICO背后的团队由奥伦·里佩尔(Oren Rippel)领导,他是苹果研究员及压缩领域的资深专家。早在2017年,他在WaveOne初创公司发表的实时自适应图像压缩论文中,便用神经网络打败了当时主流编解码器并保持实时速度。随后,该团队推出面向视频的ELF-VC编解码器,在UVG测试集上相比H.264实现44%码率节省,且速度比同类机器学习编解码器快五倍以上。2026年,这支深耕学习型压缩近十年的团队整体加入苹果,PICO是其交出的第一份系统性答卷,预示着AI在图像、视频、音频乃至三维内容压缩领域的广阔前景。
| 团队/项目 | 关键成就 | 时间/背景 |
|---|---|---|
| WaveOne (Oren Rippel) | 实时自适应图像压缩,神经网络击败主流标准 | 2017年 |
| ELF-VC (WaveOne) | 相比H.264节省44%码率,速度快5倍 | WaveOne时期 |
| PICO (Apple) | 感知压缩,体积缩减2/3,iPhone实时运行 | 2026年5月论文发布 |
| JPEG AI | 首个端到端学习型图像编码国际标准 | 2025年2月发布 |