大家好,这里是最佳拍档,我是大飞 图像压缩相信大家都不陌生 我们手机里拍摄的照片 社交媒体上分享的图片 都会用到图像压缩的技术 这个领域也发展了很长时间 比如大家熟悉的JPEG格式 已经诞生了超过三十年 而就在2026年5月 苹果公司悄悄发布了一篇论文 可能会彻底改变图像压缩这个领域 简单来说
他们用人工智能重新发明了图像压缩技术 在保持完全相同的视觉质量的前提下 把文件体积压缩到了现有主流标准的三分之一 这意味着我们的手机存储空间 相当于凭空扩大了三倍 意味着将来我们在网络不好的情况下 也能秒发高清照片 意味着云存储服务商的成本会大幅下降 甚至整个互联网的流量结构 都可能因此而发生改变
今天这期视频我们就来聊一下这篇论文 先把时间拨回到一年多以前 2025年2月 国际图像专家组(JPEG)宣布了一个消息 JPEG AI 这项历时多年、被寄予厚望的第一个端到端的学习型图像编码国际标准
正式发布了 但是这个里程碑式的事件 行业外的人鲜有知道 要知道,JPEG标准诞生于1992年 三十多年来 它一直是人类数字图像的一门基础语言 从你手机里的照片,到网页上的图片 再到数码相机的存储格式 几乎所有的数字图像 都在使用JPEG或者基于JPEG衍生的标准 三十多年来
无数工程师为了让图像变得更小、更清晰 付出了巨大的努力 而现在 人工智能终于开始接手重写这门语言的语法了 但是即便是刚刚发布的JPEG AI 距离真正的感知压缩 仍然有相当长的一段距离 简单来说 感知压缩就是直接针对人眼的视觉体验来优化压缩算法 而不是针对某个数学指标
这听起来好像没什么特别,但实际上 这是图像压缩领域几十年来一直想要实现 却始终未能真正落地的终极目标 工程师们早就知道 传统上用来衡量压缩质量的指标 峰值信噪比(PSNR) 其实和人眼看到的好不好看关系并不大 一张图片在PSNR这个数学指标上得了高分
人眼看起来却可能觉得平平无奇 甚至会有明显的不适感 而另一张PSNR偏低的图片 人眼却可能觉得细节丰富、质感真实 优化数学指标,和优化人眼感知 本质上是两件完全不同的事情 几十年来,从最初的JPEG 到后来的HEVC 也就是我们常说的H.265 再到最新的VVC(H.266)和JPEG AI
几乎所有编解码器的设计逻辑 都还是在数学指标的框架里兜圈子 感知压缩一直像是学术论文里的远景目标 是实验室里的玩具 而就在整个行业都以为感知压缩还要再等个三五年的时候 苹果的一支工程师团队悄悄在arXiv上发布了一篇论文 给出了他们的答案 这项技术的代号叫做PICO 全称是Perceptual
Image Codec 也就是感知图像编解码器 这个名字直接点明了它的目标 不是让数学指标更好看 而是让人眼满意 在正式介绍PICO的技术细节之前 我想先给大家简单介绍一下 图像压缩到底在做什么
只有理解了这个最基本的问题 我们才能真正明白苹果这项技术的意义 把一张照片存成文件 本质上可以说是一道忘记什么、记住什么的取舍题 我们的存储空间是有限的 网络带宽也是有限的 所以我们不可能把一张照片的所有像素信息 都原封不动地保存下来 我们必须扔掉一部分信息
同时要让看这张照片的人尽量察觉不到我们扔掉了什么 不同的编解码器 遵循的是不同的扔法 JPEG、AV1、VVC这些我们现在正在使用的传统编解码器 都是工程师手工设计的规则系统 它们的工作流程大致是这样的 首先把一张完整的图像切成一个个8×8或者16×16的小方块 然后对每个小方块进行离散余弦变换
把空间域的信息转换成频率域的信息 接着对变换后的系数进行量化 扔掉那些人眼不太敏感的高频信息 最后再进行熵编码 把数据进一步压缩 每一步都是几十年积累的人工经验 这类系统可以在PSNR这样的数学指标上表现得极好
因为它们的设计本质上就是面向减少像素误差的 也就是说 它们的目标是让压缩后的图像和原始图像在像素值上尽可能接近 但问题在于 人眼并不是一个像素误差计 人眼的视觉系统是经过了数百万年进化而来的极其复杂的系统 它对不同类型的信息有着截然不同的敏感度 比如,人眼对亮度变化的敏感度 远高于对色彩变化的敏感度
对边缘和纹理的敏感度 远高于对平滑区域的敏感度 对文字和人脸的敏感度更是高得惊人 当你把一张街景照片压缩得很小的时候 PSNR可能依然保持在一个相当体面的水平 但是你会看到建筑的边缘变得模糊 路牌上的文字变得难以辨认 行人的面部特征变得扭曲 而这些,恰恰是人眼最先察觉的东西
这就是传统编解码器的根本局限性 它们是按照数学公式来判断什么信息重要、什么信息不重要 而不是按照人眼的感知来判断的 学习型编解码器的出现 理论上打开了一扇全新的大门 神经网络可以直接针对人的感知进行端到端训练
而不是针对某个数学公式 我们可以给神经网络看数百万张图片 让它自己学习哪些信息是人眼真正关心的 哪些信息是可以安全扔掉的 这听起来简直完美 但是在PICO出现之前 已有的感知型学习编解码器 都存在着各种各样的问题 比如速度慢、跨设备兼容性差、无法灵活控制码率等等 根本无法应用到消费级产品中
而苹果的PICO编解码器 就是为了解决所有这些问题而诞生的 研究团队系统探索了数百万种模型配置 并且引入了三项关键的技术创新 终于实现了感知压缩的工程化落地 我们先来看第一个核心问题 熵编码慢 怎么办?
熵编码是图像压缩过程中非常关键的一步 为了把文件压得更小 编解码器需要用熵模型来精确估计每个像素的信息量 信息量越大的像素 我们给它分配越多的比特 信息量越小的像素 我们给它分配越少的比特 这样就能在不损失太多质量的情况下 最大限度地压缩文件体积 目前最精确的熵编码方法叫做自回归编码
它的工作原理是这样的 每压缩一个像素 都要先看看周围已经压缩好的像素 根据这些像素的值来预测当前像素的概率分布 然后再根据这个概率分布来分配比特 这就像一个厨师每放一块食材 都要先回头看看锅里的状态 尝一尝味道 才能决定下一步放什么调料 这种方法确实非常精确,但也极慢
因为它是完全串行的,无法并行计算 这也是为什么之前很多学习型编解码器速度都很慢的主要原因 它们都采用了自回归熵模型 虽然压缩效果很好 但速度根本无法满足实时应用的需求 PICO的解法非常巧妙 他们提出了一种叫做一次性上下文模型(One-shot Context Model)的技术
他们发现,在熵编码的所有参数中 尺度参数是对压缩性能影响最大的一个 于是他们把这个最关键的尺度参数单独拆出来 在一次前向传播中全部计算完成 不再需要来回等待 而其余的参数则可以并行计算 这样一来 既保留了自回归编码的精度 又绕开了它的速度瓶颈
实验结果显示 如果去掉这个一次性上下文模型 PICO的整体性能会下降10.28% 但是加上它之后 模型的运行速度几乎不受任何影响 这是一个非常了不起的成就 相当于鱼和熊掌兼得了 接下来我们看第二个核心问题 感知训练会产生幻觉 怎么办?现在的感知型学习编解码器 大多是基于生成对抗网络(GAN)来训练的
GAN的特点就是能够生成非常逼真的图像 它会脑补出一些看起来很真实的细节 但这也带来了一个严重的问题 那就是这些细节可能是编造出来的 比如 它可能会把头发丝变成不存在的花纹 把平滑的表面变成有纹理的表面 甚至会把一个字变成另一个字 更麻烦的是,人眼对文字极度敏感 哪怕一个字母只是稍微变形了一点点
我们也会立刻察觉出来 如果一张照片里的文字因为压缩而变得模糊或者变形 哪怕其他部分的质量再好 我们也会觉得这张照片的质量很差 为了解决这个问题
PICO专门设计了一个叫做TextFidelityLoss的损失函数 它会首先用一个现成的文字检测器 自动找出图片中的所有文字区域 然后在这些区域强制施加严格的像素保真约束 同时压制GAN在文字区域的发挥空间 也就是说,在非文字区域 GAN可以自由地生成看起来很真实的细节 但是在文字区域
它必须严格按照原始像素来重建 不能有任何创造 实验显示,加上这项损失函数之后 文字区域的绝对误差降低了整整一半 这就解决了感知压缩中最让人头疼的文字失真问题 然后是第三个核心问题 图像分块处理会留下色块边界 怎么办?
为了在手机芯片上快速运行 PICO和大多数现代编解码器一样 会把一张完整的图像切成一块块504×504像素的瓦片 分别进行处理,然后再把它们拼回去 这样做的好处是可以充分利用手机芯片的并行计算能力 大大提高运行速度 但这也带来了一个新的问题 瓦片边界效应 GAN在训练的时候
倾向于忽略低频色彩的信息 这就导致相邻的瓦片之间经常会出现可见的色差 类似于我们修图的时候没有拼好的感觉 这种色差虽然很细微 但人眼却很容易察觉 会严重影响整体的视觉体验 为了解决这个问题 研究团队专门引入了TilingArtifactLoss 这是一种多分辨率的L1损失函数
它会强制模型在多个不同的空间频率上保持色彩的一致性 特别是在瓦片的边界区域 这项措施让瓦片边界的误差也下降了一半以上 基本上消除了可见的边界效应 解决了这三个核心问题之后 PICO的表现到底怎么样呢?
苹果团队没有只靠基准评测指标说话 他们做了一件事情 委托第三方平台Mabyduck 组织了一次大规模的人类主观评测 这次评测采用的是盲测两两对比的方式 他们首先筛选了610位评测者 这些评测者都需要通过严格的色盲检测和压缩伪影辨别测试 确保他们能够准确地判断图像质量的差异 然后
他们给这些评测者展示同一张图片在不同编解码器下的重建结果 让他们在不知道哪个是哪个的情况下 选择自己认为质量更好的那一个 最终,他们一共收集了74 925次配对比较结果 然后把这些结果汇总成了贝叶斯ELO分数 ELO分数大家应该都很熟悉 就是国际象棋里用来衡量棋手水平的那个评分系统
用ELO分数来衡量图像质量 可以非常准确地反映出不同编解码器之间的相对优劣 实验结果显示,在相同的视觉质量下 PICO的文件体积只有AV1、AV2、VVC、ECM和JPEG AI这些主流标准的三分之一到二分之一 换句话说,存储同样的图片 PICO需要的比特数 只有这些标准的30%到43%
即便是对比目前最强的学习型感知编解码器 比如HiFiC和MRIC PICO也能节省20%到40%的文件大小 这是一个非常惊人的结果 要知道,过去十年里 图像压缩技术的进步是非常缓慢的 从HEVC到VVC,用了整整十年的时间
才实现了大约50%的码率节省 而PICO一下子就把这个数字提高到了60%到70% 而且是在感知质量这个更有意义的指标上 除了压缩效率之外 PICO在运行速度方面的表现同样令人印象深刻 在iPhone 17 Pro Max上 PICO编码一张1200万像素的照片仅需230毫秒 解码更是只需要150毫秒
相比而言 大多数顶级的机器学习编解码器 在NVIDIA V100服务器显卡上运行 都比这个速度还要慢 值得注意的是 论文还专门记录了一个非常有意思的反例 在PSNR这个传统的数学指标上 PICO的表现平平 甚至不如DCVC-RT和VVC这些传统编解码器 这恰好印证了苹果团队的基本判断
优化感知质量和优化数学指标 本质上是两个完全不同的方向 鱼与熊掌不可兼得 当然,PICO也不是完美的 它也有自己的局限性 论文中也坦诚地指出 对于卡通、示意图等高度规则化的合成图像
PICO的压缩效率可能不如传统编解码器 因为这类内容天然适合规则驱动的自回归建模 而不是基于感知的生成式建模 不过,这并不是一个致命的缺陷 毕竟我们日常生活中拍摄的绝大多数照片都是自然场景的照片 而不是合成图像 而且这些局限性丝毫不会掩盖这项工作的重大意义 过去三十年,图像压缩的技术进步
几乎都发生在让数字更好看的赛道上 从JPEG到HEVC,再到VVC 工程师们一代又一代地优化着PSNR、SSIM这类数学指标 而人眼的感知 始终是一个被绕开的难题 而PICO是第一次有人系统地把这道难题正面拆解 从数百万种模型架构的搜索 到针对文字和边界的专门损失函数设计 再到大规模的人类主观评测
苹果团队把每一个环节都做到了极致 并且最终交出了一份可以在手机上实时运行的编解码器 它标志着图像压缩技术正式从数学指标驱动 进入了人类感知驱动的新时代 最后 我来介绍一下这项技术背后的团队
这篇论文的通讯作者是奥伦·里佩尔(Oren Rippel) 他是苹果的研究员 也是压缩领域的一位老面孔 早在2017年 当时他还在一家叫做WaveOne的初创公司 就发表了一篇名为实时自适应图像压缩的论文 在那篇论文中 他们用神经网络打败了当时所有的主流编解码器 同时还维持了实时运行的速度
那篇论文在学界引发了不小的波澜 也奠定了奥伦·里佩尔在学习型压缩领域的地位 之后 同一批核心人员在WaveOne继续深耕 又推出了面向视频压缩的ELF-VC编解码器 在UVG视频测试集上 ELF-VC相比当时的主流标准H.264实现了44%的码率节省 同时运行速度比同类的机器学习编解码器快五倍以上
后来 WaveOne的这支团队整体加入了苹果 而这次的PICO 就是这个在学习型压缩领域深耕了近十年的团队 带着苹果的算力和平台资源 在图像感知压缩领域交出的第一份系统性答卷 PICO的出现
让我们看到了图像领域时隔长久的封印开始松动 而它很可能还只是一个开始 随着AI技术的不断发展 我们还会看到更多基于感知的压缩技术出现 未来,不仅是图像 视频、音频甚至三维内容 都可能会被人工智能重新定义 感谢收看本期视频,我们下期再见