从ImageNet的辉煌到GPIC的诞生
2026年5月28日,斯坦福大学人工智能实验室(SAIL)联合多家机构发布了名为GPIC的全新数据集,发布者正是被称为AI教母的李飞飞及其团队。GPIC的发布意义深远,旨在接替ImageNet成为视觉生成时代的新基准。 回顾2009年,李飞飞在CVPR会议上发布第一版ImageNet时,计算机视觉领域仍处于传统机器学习时代,主流方法是手工设计特征并使用SVM或随机森林进行分类。当时著名的PASCAL VOC数据集仅包含20个类别,每类几百张图片,而ImageNet则包含了1400多万张图片,覆盖2万多个类别,这一规模在当时震惊了整个学术界。 李飞飞提出了“数据是AI的燃料”这一超前理念,尽管初期受到质疑,但她带领团队通过亚马逊众包平台为1400多万张图片逐一打上准确标签,坚持了两年多的时间完成了这一浩大工程。
“李飞飞当时提出了一个非常超前的理念:数据是AI的燃料,只有足够大、足够高质量的数据,才能训练出足够强大的AI模型。”
时间来到2012年,由杰弗里·辛顿、伊利亚·苏茨克维尔和亚历克斯·克里泽夫斯基团队开发的AlexNet模型在ImageNet大规模视觉识别挑战赛(ILSVRC)上以压倒性优势夺冠。AlexNet的Top-5错误率仅为15.3%,而第二名高达26.2%,这一结果证明了深度卷积神经网络在图像识别上的能力远超传统方法。 从此,深度学习时代正式开启,ImageNet成为过去14年里所有计算机视觉研究的标准考场。从VGGNet在2014年将Top-5错误率降至7.3%,到ResNet在2015年进一步降至3.57%并首次超过人类水平,再到2020年Vision Transformer(ViT)开启Transformer在视觉领域的应用浪潮,几乎所有耳熟能详的计算机视觉模型都是在ImageNet这张考卷上证明了自己的价值。
ImageNet基准的失效与FID指标的困境
然而,任何基准都有生命周期,当所有模型都能拿到接近满分时,基准便失去意义。ImageNet目前面临的最大问题是基准饱和,即所有模型都能在此基准上拿到极高分数,导致其无法区分模型的真实能力。 今年以来,一批顶尖生成式AI论文宣告其在ImageNet上的生成质量评分FID(Fréchet Inception Distance)已低于真实图片本身的评分。FID本质是计算生成图片与真实图片在特征空间上的距离,距离越小说明生成图片越接近真实图片。 当生成图片的FID低于真实图片时,意味着在特征空间里,生成图片的分布比真实图片更集中和纯净。
“FID这个指标已经和人类的视觉感知严重脱节了,模型可以通过各种投机取巧的方式来降低FID数值,而不需要真正提升图片的感知质量。”
这听起来反直觉,但事实是许多FID分数很低的生成模型,在人类看来仍存在手指数量不对、面部扭曲、背景逻辑混乱等明显缺陷。这说明生成图片在统计意义上比真实图片更像真图片,并不代表生成的图片真的比真实图片更好看或更真实。 当一个基准被刷穿后,分数就失去了意义,你不再能通过分数判断一个模型是真的好,还是只是擅长做这张卷子。科学竞争需要一把新的尺子,而ImageNet作为分类任务的基准,已无法评估生成任务的性能。
视觉生成领域的三重困境
视觉生成研究正陷入三个相互叠加的麻烦。第一个麻烦是旧基准ImageNet与当前研究范式完全错位。 ImageNet是以分类标签为核心的数据集,而今天的图像生成模型训练使用几亿张带有自然语言描述的图片,生成时靠文字提示词驱动。用为分类任务设计的数据集来评估生成任务的性能,本质上是用语文考卷评数学成绩。 一个生成模型在ImageNet上的FID分数低,不代表它生成的图片质量一定好,这就像让数学天才做语文卷子不及格,并不代表他数学能力差。
“今天的图像生成模型和十年前的图像分类模型是完全不同的研究范式,我们用一个为分类任务设计的数据集来评估生成任务的性能,这本质上是用语文考卷评数学成绩。”
第二个麻烦是工业级数据集不对外开放且存在严重版权问题。 Midjourney、Stable Diffusion 3、Sora等先进生成模型背后的训练数据都是严格保密的商业机密,公司不公开数据来源和授权情况。这导致学术界无法复现结果或公平比较不同模型性能,只能看到公司发布的精选样例和对自己有利的评估数字。 更严重的是,这些数据集普遍存在未经授权使用互联网图片的问题,导致大量法律纠纷,如多位艺术家起诉Stability AI、Midjourney和DeviantArt。版权纠纷不仅带来法律风险,也阻碍了领域的健康发展。
开放数据集的不稳定性与可复现性危机
第三个麻烦是现有的开放数据集极不稳定,严重破坏科学可复现性。 学术界常用的LAION、DataComp等数据集采用URL索引方式分发,即下载的是包含几百万甚至几十亿个图片网址的清单,而非图片文件本身。研究者需自行编写爬虫程序抓取图片,这导致链接失效、抓取工具和环境差异巨大,使得不同团队声称使用同一数据集,实际使用的图片集合却完全不同。
“虽然大家都声称自己用的是同一个LAION数据集,但实际上每个团队最终用到的图片集合都是完全不同的,这就意味着不同研究团队的实验结果根本无法进行可靠的比较。”
A团队说模型在LAION上训练得到高分,B团队用同样方法却复现不出来,因为他们用的根本不是同一批图片。这种情况严重破坏了科学研究的可复现性,而可复现性是科学的基石。 这三个麻烦叠加导致视觉生成领域陷入混乱:工业界在闭源道路越走越远,学术界因缺乏高质量开放数据和统一评估基准难以做出有影响力工作,整个领域发展变得越来越不透明、越来越不公平。
GPIC数据集的构建流程与版权保障
在此背景下,李飞飞团队发布GPIC(Giant Permissive Image Corpus,巨型开放图像语料库),旨在解决上述三个麻烦。GPIC的构建分为四个阶段,第一阶段是数据采集,团队明确只从Flickr和Wikimedia两个平台收集图片,并严格限定在CC BY、CC0、公有领域和无已知限制四类授权范围内。 这意味着GPIC中的每张图片都有明确法律依据,既可用于学术研究,也可用于训练商业产品,完全不用担心版权问题,解决了第二个大麻烦。
“GPIC里的每一张图片都有明确的法律依据,你不仅可以用这些图片来做学术研究,还可以用它们来训练商业产品,完全不用担心版权问题。”
第二阶段是过滤低质量与有害内容,初始采集1.1亿张图片后,团队使用通义千问3-VL-4B视觉语言模型进行清洗。 该模型能同时理解图像和文本,具有强内容识别能力,用于自动识别并移除两类图片:一是低质量图片,包括分辨率过低、严重模糊、过曝、近乎空白等;二是有害内容,包括色情、暴力、仇恨言论等。第三阶段是去重,团队使用Meta在2021年发布的SSCD图片复制检测模型,这是一种自监督模型,能计算每两张图片之间的特征相似度。 即使图片经过裁剪、缩放、旋转、加滤镜等变换,也能准确识别为同一张图片,团队采用保守去重策略,最终保留约1.013亿张图片。第四阶段是生成高质量描述文字,团队对每张图片用通义千问3-VL-4B模型重新生成AI描述,并按标签、短、中、长四种粒度分布,满足不同研究场景需求。
GPIC数据集规格与评估协议革新
经过四个阶段,最终GPIC数据集诞生,包含1亿张训练图片、20万张验证图片和100万张测试图片,总体积约12.9TB,整理成8000个分片(shard)。这些分片采用高效存储格式,可直接流式传输用于大规模分布式训练,无需额外预处理,且全量托管在Hugging Face上,任何人都可免费下载使用,无申请、审批或使用限制。 除了数据集,GPIC还附带全新评估协议,以解决旧指标FID失效问题。FID依赖2015年的Inception-v3网络提取特征,该网络专为分类任务设计,主要关注类别信息,而非细节、纹理、光照、构图等影响人类感知质量的因素。
“FD-DINOv2不再使用Inception-v3来提取特征,而是使用DINOv2模型,它是目前性能最好的通用视觉特征提取器之一,其特征表示与人类对图像相似性的判断更为一致。”
GPIC的新基准采用FD-DINOv2作为主要评估指标,使用Meta在2023年发布的自监督视觉特征模型DINOv2。DINOv2不仅能识别图片类别信息,还能很好捕捉细节、纹理、光照、构图等视觉特征,且与人类对图像相似性的判断更为一致。 研究团队验证发现,目前所有主流生成模型包括那些用DINOv2特征训练的模型,在FD-DINOv2上的分数仍高于真实图片,说明这把新尺子还有足够余量,不会很快被刷穿,至少在未来几年可作为可靠评估指标。
独立测试集与参考基线模型
GPIC评估协议的另一个重要改进是基准评分与独立的百万张测试集比较,而非与训练集比较。 过去许多评估指标拿生成图片与训练集比较,导致模型只需记住训练数据中的图片就能获得好分数,这种模型缺乏泛化能力,只能生成与训练数据非常相似的图片。GPIC使用完全独立的百万张测试集,与训练集无任何重叠,迫使模型真正学习自然图像的分布,而非简单记住训练数据,极大提高评估结果的可靠性和公平性。
“GPIC使用了一个完全独立的百万张测试集,这个测试集和训练集没有任何重叠,模型必须生成和测试集中的真实图片在分布上相似的图片,才能获得好的分数。”
为方便研究者对齐实验结果,GPIC团队在完整GPIC-Full数据集上训练了一个参考基线模型。该训练在单节点8张H100 GPU上进行约40小时,即大约一个epoch,训练图片分辨率为256×256。 在最优引导强度(CFG=6.25)下,该基线模型的FD-DINOv2评分为76.25。这个分数并不出色,与现在最先进的生成模型还有很大差距,但其价值在于提供了一个统一的起点,所有研究者都可以此为基准公平比较各自改进效果。
多版本数据集与未来展望
考虑到不同研究团队计算资源差异,GPIC团队提供了三个不同规模的训练集版本。最小版本是GPIC-Nano,包含100万张图片,适合只有少量计算资源的个人研究者或小团队,用于快速迭代想法。 中等规模版本是GPIC-Lite,包含1000万张图片,适合有一定计算资源的研究团队。最大版本是GPIC-Full,包含1亿张图片,适合拥有大规模计算集群的机构和公司,用于训练最先进的生成模型。
“GPIC不仅仅是一个更大、更好的数据集,它更是为整个视觉生成领域建立了一个新的秩序,为这个领域补课,提供了一个共同的起跑线、统一的训练数据集和可靠的评估基准。”
现在的视觉生成领域正经历疯狂军备竞赛,前沿模型能力每隔几个月跃升一级,但竞赛不透明,每个实验室在私有数据上训练,用自己的指标评估,发布时只挑选有利数字。作为旁观者,我们无法真正知道哪个模型最好,也无法知道能力边界。 GPIC的发布是一次为领域补课的尝试,正如李飞飞团队在论文中所写,希望GPIC能够推动视觉生成建模领域公开、可及、可复现的研究。 在GPIC推动下,视觉生成技术将迎来新黄金时代,出现更多令人惊叹的AI应用。