李飞飞斯坦福团队发布最新图像数据集GPIC | 1亿张图片 | 下一代ImageNet | AlexNet | FID | 基准饱和 | 版权问题 | 私有数据 | DINOv2

大家好，这里是最佳拍档，我是大飞 2026年5月28日斯坦福大学人工智能实验室（SAIL）联合多家机构发布了一个名为GPIC的全新数据集这个数据集的发布者正是我们非常熟悉的、被称为AI教母的李飞飞和她的团队我们为什么要单独做一期视频讲一个数据集就是因为它的意义

可能会不亚于17年前李飞飞发布的ImageNet ImageNet可以说是整个深度学习时代的起点是过去14年里所有计算机视觉研究的标准考场从VGG到ResNet，从CNN到ViT 几乎所有我们今天耳熟能详的计算机视觉模型都是在ImageNet这张考卷上证明了自己的价值

但说现在，这张用了17年的考卷已经彻底失效了而GPIC的出现就是要接过ImageNet的接力棒成为视觉生成时代的新基准让我们先把时间拉回到2009年那一年李飞飞在CVPR会议上发布了第一版ImageNet数据集当时

整个计算机视觉领域还处于传统机器学习的时代主流的方法是手工设计特征然后用SVM或者随机森林这样的分类器进行识别那个时候的数据集规模都非常小比如著名的PASCAL VOC数据集只有20个类别，每个类别几百张图片而ImageNet一出来就震惊了整个学术界它包含了1400多万张图片

覆盖了2万多个类别是当时世界上最大的图像数据集李飞飞当时提出了一个非常超前的理念数据是AI的燃料只有足够大、足够高质量的数据才能训练出足够强大的AI模型这个理念在当时受到了很多质疑很多人认为把时间和金钱花在收集这么多图片上是一种浪费但李飞飞坚持了下来她带领团队用了两年多的时间

通过亚马逊众包平台给这1400多万张图片逐一打上了准确的标签然后，时间来到了2012年这一年由杰弗里·辛顿（Geoffrey Hinton）、伊利亚·苏茨克维尔（Ilya

Sutskever）和亚历克斯·克里泽夫斯基（Alex Krizhevsky）团队开发的AlexNet模型在ImageNet大规模视觉识别挑战赛（ILSVRC）上以压倒性的优势拿下了第一名它的top-5错误率只有15.3% 而第二名的错误率高达26.2% 这个结果震惊了整个计算机视觉界

因为它证明了深度卷积神经网络在图像识别任务上的能力远远超过了所有传统方法从那一刻起，深度学习时代正式开启此后的十余年里 ImageNet成为了计算机视觉研究的绝对标准任何一个新的模型架构都必须在ImageNet上证明自己的性能才能被学术界认可

VGGNet在2014年将top-5错误率降到了7.3%， ResNet在2015年进一步降到了3.57% 首次超过了人类的水平 2020年 Vision Transformer（ViT）的出现又将图像识别的性能推向了一个新的高度

同时也开启了Transformer在计算机视觉领域的应用浪潮可以说，没有ImageNet 就没有今天的计算机视觉也没有我们现在看到的各种AI图像生成、视频生成技术 ImageNet不仅提供了一个统一的训练数据集更重要的是它提供了一个统一的评估基准所有的研究者都在同一张卷子上考试

谁的模型更好一目了然这种公平的竞争环境极大地加速了整个领域的发展但是任何一个基准都有它的生命周期随着技术的不断进步当所有的模型都能在这个基准上拿到接近满分的成绩时这个基准就失去了它的意义而ImageNet 现在就面临着这样的局面今年以来一批顶尖的生成式AI论文相继宣告

它们在ImageNet上的生成质量评分也就是我们常说的FID（Fréchet Inception Distance）已经低于了真实图片本身的评分这句话是什么意思呢？

简单来说，就是现在AI生成的假图片

在统计意义上比真实的图片更像真图片这听起来可能有点反直觉但事实就是如此 FID这个指标本质上是计算生成图片和真实图片在特征空间上的距离距离越小说明生成的图片越接近真实图片当生成图片的FID低于真实图片时就意味着在这个特征空间里生成图片的分布比真实图片的分布更加集中和纯净

但这并不代表生成的图片真的比真实图片更好看、更真实恰恰相反很多FID分数很低的生成模型生成的图片在人类看来仍然存在很多明显的缺陷比如手指数量不对、面部扭曲、背景逻辑混乱等等这说明 FID这个指标已经和人类的视觉感知严重脱节了模型可以通过各种投机取巧的方式来降低FID数值

而不需要真正提升图片的感知质量这就是我们常说的基准饱和当一个基准被刷穿之后分数就失去了它的意义你不再能通过分数来判断一个模型是真的好还是只是擅长做这张卷子科学竞争，需要一把新的尺子而这

还只是当前视觉生成研究面临的问题之一如果我们深入观察这个领域就会发现现在的视觉生成研究正陷入一个非常尴尬的境地面临着三个相互叠加的麻烦第一个麻烦，就是我们刚才说的旧基准的ImageNet已经完全对不上现实了今天的图像生成模型和十年前的图像分类模型是完全不同的研究范式

图像分类模型的目标是给一张图片打上正确的标签所以ImageNet是一个以分类标签为核心的数据集而今天的图像生成模型训练用的是几亿张带有自然语言描述的图片生成时也是靠文字提示词来驱动的这就导致了一个非常荒谬的情况我们用一个为分类任务设计的数据集来评估生成任务的性能

这本质上就是用语文考卷评数学成绩你让一个数学天才去做语文卷子他可能考不及格但这并不代表他的数学能力差同样的道理一个生成模型在ImageNet上的FID分数低也不代表它生成的图片质量就一定好第二个麻烦

是大多数工业级数据集不对外开放现在我们看到的那些最先进的生成模型比如Midjourney、Stable Diffusion 3、OpenAI的Sora 它们背后的训练数据都是严格保密的商业机密这些公司从来不会公开他们用了哪些图片来训练模型也不会公开这些图片的来源和授权情况

这就给学术界带来了巨大的困难因为如果你不知道一个模型是用什么数据训练出来的你就无法复现它的结果也无法公平地比较不同模型的性能很多时候我们只能看到这些公司发布的一些精选的生成样例以及他们自己挑选的一些对自己有利的评估数字但这些数字的真实性和可比性都要打一个大大的问号更严重的是

这些工业级数据集还普遍存在严重的版权问题很多图片都是未经授权从互联网上爬取的这导致了大量的法律纠纷比如去年就有多位艺术家联合起诉Stability AI、Midjourney和DeviantArt

指控他们未经授权使用艺术家的作品来训练AI模型这些版权纠纷不仅给公司带来了法律风险也阻碍了整个领域的健康发展第三个麻烦是即使有一些开放的数据集它们也非常不稳定目前学术界常用的开放数据集比如LAION、DataComp等等普遍采用URL索引的方式来分发也就是说

你下载到的并不是真正的图片文件而是一份包含了几百万甚至几十亿个图片网址的清单你需要自己写一个爬虫程序从这些网址上把图片一张一张地抓下来这种方式带来了一个非常严重的问题随着时间的推移大量的链接会失效而且不同的研究团队使用的爬虫工具、网络环境、抓取时间都不一样

这就导致了一个非常荒谬的结果虽然大家都声称自己用的是同一个LAION数据集但实际上每个团队最终用到的图片集合都是完全不同的这就意味着不同研究团队的实验结果根本无法进行可靠的比较 A团队说他们的模型在LAION上训练得到了多少分

B团队用同样的方法却复现不出来因为他们用的根本就不是同一批图片这种情况严重破坏了科学研究的可复现性而可复现性是科学的基石这三个麻烦叠加在一起就导致了现在视觉生成领域的研究陷入了一个非常混乱的局面工业界在闭源的道路上越走越远学术界却因为缺乏高质量的开放数据和统一的评估基准

难以做出有影响力的工作整个领域的发展正在变得越来越不透明越来越不公平就在这个关键时刻李飞飞带领她的斯坦福团队发布了GPIC这个全新的数据集 GPIC的全称是Giant Permissive Image Corpus 中文翻译为巨型开放图像语料库这个数据集的发布

正是为了解决我们刚才提到的这三个麻烦而设计的 GPIC的整个构建过程分为四个阶段第一个阶段，是数据采集研究团队明确表示他们只从Flickr和Wikimedia这两个平台收集图片并且严格限定在CC

BY、CC0、公有领域和无已知限制这四类授权范围内这意味着，GPIC里的每一张图片都有明确的法律依据你不仅可以用这些图片来做学术研究还可以用它们来训练商业产品完全不用担心版权问题这解决了我们刚才提到的第二个大麻烦版权纠纷第二个阶段是过滤低质量与有害内容

采集到初始的1.1亿张图片之后研究团队需要对这些图片进行清洗去掉那些质量不好或者不安全的内容为了完成这个任务他们使用了通义千问3-VL-4B（Qwen3-VL-4B）视觉语言模型它能够同时理解图像和文本并且具有非常强的内容识别能力研究团队用它来自动识别并移除两类图片一类是低质量图片

包括分辨率过低、严重模糊、过曝、近乎空白等等；另一类是有害内容包括色情、暴力、仇恨言论等等第三个阶段，是去重互联网上的图片存在大量的重复现象如果都留在数据集中会导致模型过拟合并且浪费大量的计算资源为了解决这个问题

研究团队使用了一种名为SSCD的图片复制检测模型它是Meta在2021年发布的一个专门用于图片复制检测的自监督模型能够计算每两张图片之间的特征相似度即使图片经过了裁剪、缩放、旋转、加滤镜等各种变换也能准确地识别出它们是同一张图片研究团队采用了保守去重的策略

最终保留下来的图片大约有1.013亿张第四个阶段也是最具创新性的一个阶段是生成高质量的描述文字传统的图片数据集，比如LAION 使用的是图片自带的alt text作为描述文字但这些alt text的质量往往非常差充斥着photo.jpg、未命名、IMG_1234之类无意义的标注

还有很多alt text和图片内容完全不相关这会严重影响模型的训练效果为了解决这个问题 GPIC团队对每一张图片都用通义千问3-VL-4B模型重新生成高质量的AI描述而且这些描述按照标签、短、中、长四种粒度分布

从而满足不同研究场景的需求研究团队总共消耗了约1500个H100 GPU·小时生成了这1亿张图片的描述经过这四个严格的阶段之后最终的GPIC数据集就诞生了它包含1亿张训练图片、20万张验证图片和100万张测试图片总体积约12.9TB 被整理成了8000个分片（shard）

这些分片采用了高效的存储格式可以直接流式传输用于大规模分布式训练不需要额外的预处理而且整个数据集已经全量托管在Hugging Face上任何人都可以免费下载使用不需要申请，不需要审批也没有任何使用限制除了数据集本身之外 GPIC还附带了一套全新的评估协议我们刚才已经提到

旧的评估指标FID已经严重失效了 FID有一个致命的缺陷它的计算需要依赖一个2015年的图像分类网络Inception-v3 但是这个网络从来就不是为评估生成质量而设计的它是一个为分类任务训练的网络

它的特征空间主要关注的是图片的类别信息而不是图片的细节、纹理、光照、构图等影响人类感知质量的因素为了解决这个问题 GPIC的新基准采用了FD-DINOv2作为主要的评估指标 FD-DINOv2不再使用Inception-v3来提取特征而是使用DINOv2模型

DINOv2是Meta在2023年发布的一个自监督视觉特征模型它是目前性能最好的通用视觉特征提取器之一在图像分类、目标检测、语义分割等各种下游任务上都取得了非常优秀的成绩更重要的是 DINOv2的特征表示与人类对图像相似性的判断更为一致它不仅能识别图片的类别信息

还能很好地捕捉图片的细节、纹理、光照、构图等视觉特征研究团队做了大量的实验来验证FD-DINOv2的有效性他们发现，目前所有主流的生成模型包括那些用了DINOv2特征训练的模型在FD-DINOv2上的分数仍然高于真实图片这说明这把新的尺子还有足够的余量

不会很快被刷穿至少在未来的几年里 FD-DINOv2都可以作为一个可靠的评估指标除了更换特征提取器之外 GPIC的评估协议还有一个非常重要的改进它的基准评分是与一个独立的百万张测试集进行比较而不是和训练集比较这个设计避免了一个非常严重的漏洞在过去

很多评估指标都是拿生成图片和训练集进行比较这就导致了一个问题模型不需要真正学会生成新的图片它只需要记住训练数据中的图片就能获得很好的分数这种模型看起来FID分数很低但实际上没有任何泛化能力只能生成和训练数据非常相似的图片而GPIC使用了一个完全独立的百万张测试集

这个测试集和训练集没有任何重叠模型必须生成和测试集中的真实图片在分布上相似的图片才能获得好的分数这就迫使模型真正学习到自然图像的分布而不是简单地记住训练数据极大提高了评估结果的可靠性和公平性为了方便后来的研究者对齐实验结果

GPIC团队还在完整的GPIC-Full数据集上训练了一个参考基线模型训练是在单节点8张H100 GPU上进行了大约40小时也就是大约一个epoch 训练的图片分辨率是256×256 最终在最优的引导强度（CFG=6.25）下这个基线模型的FD-DINOv2评分为76.25

这个分数其实并不出色和现在最先进的生成模型还有很大的差距但是它的价值并不在于性能有多好而在于它提供了一个统一的起点所有的研究者都可以以此为基准公平地比较各自的改进效果比如如果你提出了一个新的模型架构在同样的训练条件下 FD-DINOv2分数降到了70 那就说明你的改进是有效的

考虑到不同的研究团队拥有的计算资源不同 GPIC团队还提供了三个不同规模的训练集版本最小的版本是GPIC-Nano 包含100万张图片适合那些只有少量计算资源的个人研究者或者小团队用来快速迭代想法

中等规模的版本是GPIC-Lite 包含1000万张图片适合有一定计算资源的研究团队最大的版本就是我们刚才一直说的GPIC-Full 包含1亿张图片适合那些拥有大规模计算集群的机构和公司用来训练最先进的生成模型讲到这里我想大家应该已经明白GPIC这个数据集的重要性了

它不仅仅是一个更大、更好的数据集它更是为整个视觉生成领域建立了一个新的秩序现在的视觉生成领域正在经历一场疯狂的军备竞赛前沿模型的能力每隔几个月就会跃升一级但是这场竞赛在相当程度上是不透明的每个实验室都在自己的私有数据上训练用自己的指标评估发布时只挑选对自己有利的数字汇报

我们作为旁观者根本无法真正知道哪个模型是最好的也无法知道这些模型的能力边界在哪里而公开、可复现的基准是科学进步的基础在自然语言处理（NLP）领域研究者们已经为此付出了多年的努力

逐步建立起了GLUE、SuperGLUE、BIG-bench等相对标准化的评测体系任何一个新的大语言模型都必须在这些基准上证明自己的性能才能被学术界和工业界认可但在视觉生成领域我们迟迟缺少这样的基础直到GPIC的出现可以说，GPIC的发布是一次为这个领域补课的尝试

它为整个领域提供了一个共同的起跑线一个统一的训练数据集一个可靠的评估基准正如李飞飞团队在论文中所写的我们希望GPIC能够推动视觉生成建模领域公开、可及、可复现的研究我相信，在GPIC的推动下视觉生成技术会迎来一个新的黄金时代我们会看到更多令人惊叹的AI应用出现

感谢收看本期视频，我们下期再见

李飞飞斯坦福团队发布最新图像数据集GPIC | 1亿张图片 | 下一代ImageNet | AlexNet | FID | 基准饱和 | 版权问题 | 私有数据 | DINOv2 | 参考基线 · 全文文字稿