大家好,这里是最佳拍档,我是大飞 2026年5月28日 斯坦福大学人工智能实验室(SAIL) 联合多家机构发布了一个名为GPIC的全新数据集 这个数据集的发布者 正是我们非常熟悉的、被称为AI教母的李飞飞和她的团队 我们为什么要单独做一期视频讲一个数据集 就是因为它的意义

可能会不亚于17年前李飞飞发布的ImageNet ImageNet可以说是整个深度学习时代的起点 是过去14年里所有计算机视觉研究的标准考场 从VGG到ResNet,从CNN到ViT 几乎所有我们今天耳熟能详的计算机视觉模型 都是在ImageNet这张考卷上证明了自己的价值

但说现在,这张用了17年的考卷 已经彻底失效了 而GPIC的出现 就是要接过ImageNet的接力棒 成为视觉生成时代的新基准 让我们先把时间拉回到2009年 那一年 李飞飞在CVPR会议上发布了第一版ImageNet数据集 当时

整个计算机视觉领域还处于传统机器学习的时代 主流的方法是手工设计特征 然后用SVM或者随机森林这样的分类器进行识别 那个时候的数据集规模都非常小 比如著名的PASCAL VOC数据集 只有20个类别,每个类别几百张图片 而ImageNet一出来 就震惊了整个学术界 它包含了1400多万张图片

覆盖了2万多个类别 是当时世界上最大的图像数据集 李飞飞当时提出了一个非常超前的理念 数据是AI的燃料 只有足够大、足够高质量的数据 才能训练出足够强大的AI模型 这个理念在当时受到了很多质疑 很多人认为 把时间和金钱花在收集这么多图片上是一种浪费 但李飞飞坚持了下来 她带领团队用了两年多的时间

通过亚马逊众包平台 给这1400多万张图片逐一打上了准确的标签 然后,时间来到了2012年 这一年 由杰弗里·辛顿(Geoffrey Hinton)、伊利亚·苏茨克维尔(Ilya

Sutskever)和亚历克斯·克里泽夫斯基(Alex Krizhevsky)团队开发的AlexNet模型 在ImageNet大规模视觉识别挑战赛(ILSVRC)上 以压倒性的优势拿下了第一名 它的top-5错误率只有15.3% 而第二名的错误率高达26.2% 这个结果震惊了整个计算机视觉界

因为它证明了深度卷积神经网络在图像识别任务上的能力 远远超过了所有传统方法 从那一刻起,深度学习时代正式开启 此后的十余年里 ImageNet成为了计算机视觉研究的绝对标准 任何一个新的模型架构 都必须在ImageNet上证明自己的性能 才能被学术界认可

VGGNet在2014年将top-5错误率降到了7.3%, ResNet在2015年进一步降到了3.57% 首次超过了人类的水平 2020年 Vision Transformer(ViT)的出现 又将图像识别的性能推向了一个新的高度

同时也开启了Transformer在计算机视觉领域的应用浪潮 可以说,没有ImageNet 就没有今天的计算机视觉 也没有我们现在看到的各种AI图像生成、视频生成技术 ImageNet不仅提供了一个统一的训练数据集 更重要的是 它提供了一个统一的评估基准 所有的研究者都在同一张卷子上考试

谁的模型更好 一目了然 这种公平的竞争环境 极大地加速了整个领域的发展 但是 任何一个基准都有它的生命周期 随着技术的不断进步 当所有的模型都能在这个基准上拿到接近满分的成绩时 这个基准就失去了它的意义 而ImageNet 现在就面临着这样的局面 今年以来 一批顶尖的生成式AI论文相继宣告

它们在ImageNet上的生成质量评分 也就是我们常说的FID(Fréchet Inception Distance) 已经低于了真实图片本身的评分 这句话是什么意思呢?

简单来说,就是现在AI生成的假图片

在统计意义上 比真实的图片更像真图片 这听起来可能有点反直觉 但事实就是如此 FID这个指标 本质上是计算生成图片和真实图片在特征空间上的距离 距离越小 说明生成的图片越接近真实图片 当生成图片的FID低于真实图片时 就意味着在这个特征空间里 生成图片的分布比真实图片的分布更加集中和纯净

但这并不代表生成的图片真的比真实图片更好看、更真实 恰恰相反 很多FID分数很低的生成模型 生成的图片在人类看来仍然存在很多明显的缺陷 比如手指数量不对、面部扭曲、背景逻辑混乱等等 这说明 FID这个指标已经和人类的视觉感知严重脱节了 模型可以通过各种投机取巧的方式来降低FID数值

而不需要真正提升图片的感知质量 这就是我们常说的基准饱和 当一个基准被刷穿之后 分数就失去了它的意义 你不再能通过分数来判断一个模型是真的好 还是只是擅长做这张卷子 科学竞争,需要一把新的尺子 而这

还只是当前视觉生成研究面临的问题之一 如果我们深入观察这个领域 就会发现 现在的视觉生成研究 正陷入一个非常尴尬的境地 面临着三个相互叠加的麻烦 第一个麻烦,就是我们刚才说的 旧基准的ImageNet已经完全对不上现实了 今天的图像生成模型 和十年前的图像分类模型 是完全不同的研究范式

图像分类模型的目标是给一张图片打上正确的标签 所以ImageNet是一个以分类标签为核心的数据集 而今天的图像生成模型 训练用的是几亿张带有自然语言描述的图片 生成时也是靠文字提示词来驱动的 这就导致了一个非常荒谬的情况 我们用一个为分类任务设计的数据集 来评估生成任务的性能

这本质上就是用语文考卷评数学成绩 你让一个数学天才去做语文卷子 他可能考不及格 但这并不代表他的数学能力差 同样的道理 一个生成模型在ImageNet上的FID分数低 也不代表它生成的图片质量就一定好 第二个麻烦

是大多数工业级数据集不对外开放 现在我们看到的那些最先进的生成模型 比如Midjourney、Stable Diffusion 3、OpenAI的Sora 它们背后的训练数据都是严格保密的商业机密 这些公司从来不会公开他们用了哪些图片来训练模型 也不会公开这些图片的来源和授权情况

这就给学术界带来了巨大的困难 因为如果你不知道一个模型是用什么数据训练出来的 你就无法复现它的结果 也无法公平地比较不同模型的性能 很多时候 我们只能看到这些公司发布的一些精选的生成样例 以及他们自己挑选的一些对自己有利的评估数字 但这些数字的真实性和可比性 都要打一个大大的问号 更严重的是

这些工业级数据集还普遍存在严重的版权问题 很多图片都是未经授权从互联网上爬取的 这导致了大量的法律纠纷 比如 去年就有多位艺术家联合起诉Stability AI、Midjourney和DeviantArt

指控他们未经授权使用艺术家的作品来训练AI模型 这些版权纠纷不仅给公司带来了法律风险 也阻碍了整个领域的健康发展 第三个麻烦 是即使有一些开放的数据集 它们也非常不稳定 目前学术界常用的开放数据集 比如LAION、DataComp等等 普遍采用URL索引的方式来分发 也就是说

你下载到的并不是真正的图片文件 而是一份包含了几百万甚至几十亿个图片网址的清单 你需要自己写一个爬虫程序 从这些网址上把图片一张一张地抓下来 这种方式带来了一个非常严重的问题 随着时间的推移 大量的链接会失效 而且 不同的研究团队使用的爬虫工具、网络环境、抓取时间都不一样

这就导致了一个非常荒谬的结果 虽然大家都声称自己用的是同一个LAION数据集 但实际上 每个团队最终用到的图片集合都是完全不同的 这就意味着 不同研究团队的实验结果根本无法进行可靠的比较 A团队说他们的模型在LAION上训练得到了多少分

B团队用同样的方法却复现不出来 因为他们用的根本就不是同一批图片 这种情况严重破坏了科学研究的可复现性 而可复现性是科学的基石 这三个麻烦叠加在一起 就导致了现在视觉生成领域的研究陷入了一个非常混乱的局面 工业界在闭源的道路上越走越远 学术界却因为缺乏高质量的开放数据和统一的评估基准

难以做出有影响力的工作 整个领域的发展 正在变得越来越不透明 越来越不公平 就在这个关键时刻 李飞飞带领她的斯坦福团队 发布了GPIC这个全新的数据集 GPIC的全称是Giant Permissive Image Corpus 中文翻译为巨型开放图像语料库 这个数据集的发布

正是为了解决我们刚才提到的这三个麻烦而设计的 GPIC的整个构建过程分为四个阶段 第一个阶段,是数据采集 研究团队明确表示 他们只从Flickr和Wikimedia这两个平台收集图片 并且严格限定在CC

BY、CC0、公有领域和无已知限制这四类授权范围内 这意味着,GPIC里的每一张图片 都有明确的法律依据 你不仅可以用这些图片来做学术研究 还可以用它们来训练商业产品 完全不用担心版权问题 这解决了我们刚才提到的第二个大麻烦 版权纠纷 第二个阶段 是过滤低质量与有害内容

采集到初始的1.1亿张图片之后 研究团队需要对这些图片进行清洗 去掉那些质量不好或者不安全的内容 为了完成这个任务 他们使用了通义千问3-VL-4B(Qwen3-VL-4B)视觉语言模型 它能够同时理解图像和文本 并且具有非常强的内容识别能力 研究团队用它来自动识别并移除两类图片 一类是低质量图片

包括分辨率过低、严重模糊、过曝、近乎空白等等; 另一类是有害内容 包括色情、暴力、仇恨言论等等 第三个阶段,是去重 互联网上的图片存在大量的重复现象 如果都留在数据集中 会导致模型过拟合 并且浪费大量的计算资源 为了解决这个问题

研究团队使用了一种名为SSCD的图片复制检测模型 它是Meta在2021年发布的一个专门用于图片复制检测的自监督模型 能够计算每两张图片之间的特征相似度 即使图片经过了裁剪、缩放、旋转、加滤镜等各种变换 也能准确地识别出它们是同一张图片 研究团队采用了保守去重的策略

最终保留下来的图片大约有1.013亿张 第四个阶段 也是最具创新性的一个阶段 是生成高质量的描述文字 传统的图片数据集,比如LAION 使用的是图片自带的alt text作为描述文字 但这些alt text的质量往往非常差 充斥着photo.jpg、未命名、IMG_1234之类无意义的标注

还有很多alt text和图片内容完全不相关 这会严重影响模型的训练效果 为了解决这个问题 GPIC团队对每一张图片 都用通义千问3-VL-4B模型 重新生成高质量的AI描述 而且 这些描述按照标签、短、中、长四种粒度分布

从而满足不同研究场景的需求 研究团队总共消耗了约1500个H100 GPU·小时 生成了这1亿张图片的描述 经过这四个严格的阶段之后 最终的GPIC数据集就诞生了 它包含1亿张训练图片、20万张验证图片和100万张测试图片 总体积约12.9TB 被整理成了8000个分片(shard)

这些分片采用了高效的存储格式 可以直接流式传输用于大规模分布式训练 不需要额外的预处理 而且 整个数据集已经全量托管在Hugging Face上 任何人都可以免费下载使用 不需要申请,不需要审批 也没有任何使用限制 除了数据集本身之外 GPIC还附带了一套全新的评估协议 我们刚才已经提到

旧的评估指标FID已经严重失效了 FID有一个致命的缺陷 它的计算需要依赖一个2015年的图像分类网络Inception-v3 但是这个网络从来就不是为评估生成质量而设计的 它是一个为分类任务训练的网络

它的特征空间主要关注的是图片的类别信息 而不是图片的细节、纹理、光照、构图等影响人类感知质量的因素 为了解决这个问题 GPIC的新基准采用了FD-DINOv2作为主要的评估指标 FD-DINOv2不再使用Inception-v3来提取特征 而是使用DINOv2模型

DINOv2是Meta在2023年发布的一个自监督视觉特征模型 它是目前性能最好的通用视觉特征提取器之一 在图像分类、目标检测、语义分割等各种下游任务上都取得了非常优秀的成绩 更重要的是 DINOv2的特征表示与人类对图像相似性的判断更为一致 它不仅能识别图片的类别信息

还能很好地捕捉图片的细节、纹理、光照、构图等视觉特征 研究团队做了大量的实验来验证FD-DINOv2的有效性 他们发现,目前所有主流的生成模型 包括那些用了DINOv2特征训练的模型 在FD-DINOv2上的分数仍然高于真实图片 这说明这把新的尺子还有足够的余量

不会很快被刷穿 至少在未来的几年里 FD-DINOv2都可以作为一个可靠的评估指标 除了更换特征提取器之外 GPIC的评估协议还有一个非常重要的改进 它的基准评分是与一个独立的百万张测试集进行比较 而不是和训练集比较 这个设计避免了一个非常严重的漏洞 在过去

很多评估指标都是拿生成图片和训练集进行比较 这就导致了一个问题 模型不需要真正学会生成新的图片 它只需要记住训练数据中的图片 就能获得很好的分数 这种模型看起来FID分数很低 但实际上没有任何泛化能力 只能生成和训练数据非常相似的图片 而GPIC使用了一个完全独立的百万张测试集

这个测试集和训练集没有任何重叠 模型必须生成和测试集中的真实图片在分布上相似的图片 才能获得好的分数 这就迫使模型真正学习到自然图像的分布 而不是简单地记住训练数据 极大提高了评估结果的可靠性和公平性 为了方便后来的研究者对齐实验结果

GPIC团队还在完整的GPIC-Full数据集上训练了一个参考基线模型 训练是在单节点8张H100 GPU上进行了大约40小时 也就是大约一个epoch 训练的图片分辨率是256×256 最终 在最优的引导强度(CFG=6.25)下 这个基线模型的FD-DINOv2评分为76.25

这个分数其实并不出色 和现在最先进的生成模型还有很大的差距 但是它的价值并不在于性能有多好 而在于它提供了一个统一的起点 所有的研究者都可以以此为基准 公平地比较各自的改进效果 比如 如果你提出了一个新的模型架构 在同样的训练条件下 FD-DINOv2分数降到了70 那就说明你的改进是有效的

考虑到不同的研究团队拥有的计算资源不同 GPIC团队还提供了三个不同规模的训练集版本 最小的版本是GPIC-Nano 包含100万张图片 适合那些只有少量计算资源的个人研究者或者小团队 用来快速迭代想法

中等规模的版本是GPIC-Lite 包含1000万张图片 适合有一定计算资源的研究团队 最大的版本就是我们刚才一直说的GPIC-Full 包含1亿张图片 适合那些拥有大规模计算集群的机构和公司 用来训练最先进的生成模型 讲到这里 我想大家应该已经明白GPIC这个数据集的重要性了

它不仅仅是一个更大、更好的数据集 它更是为整个视觉生成领域建立了一个新的秩序 现在的视觉生成领域 正在经历一场疯狂的军备竞赛 前沿模型的能力每隔几个月就会跃升一级 但是这场竞赛 在相当程度上是不透明的 每个实验室都在自己的私有数据上训练 用自己的指标评估 发布时只挑选对自己有利的数字汇报

我们作为旁观者 根本无法真正知道哪个模型是最好的 也无法知道这些模型的能力边界在哪里 而公开、可复现的基准 是科学进步的基础 在自然语言处理(NLP)领域 研究者们已经为此付出了多年的努力

逐步建立起了GLUE、SuperGLUE、BIG-bench等相对标准化的评测体系 任何一个新的大语言模型 都必须在这些基准上证明自己的性能 才能被学术界和工业界认可 但在视觉生成领域 我们迟迟缺少这样的基础 直到GPIC的出现 可以说,GPIC的发布 是一次为这个领域补课的尝试

它为整个领域提供了一个共同的起跑线 一个统一的训练数据集 一个可靠的评估基准 正如李飞飞团队在论文中所写的 我们希望GPIC能够推动视觉生成建模领域公开、可及、可复现的研究 我相信,在GPIC的推动下 视觉生成技术会迎来一个新的黄金时代 我们会看到更多令人惊叹的AI应用出现

感谢收看本期视频,我们下期再见