刚刚,Meta 发布了全新开源视觉模型 DINOv3 ——
首次证明了自监督学习模型能够在广泛任务中超越弱监督学习模型。
DINOv3 采用无标注方法,将数据规模扩展至17 亿张图像、模型规模扩展至70 亿参数,并能高效支持数据标注稀缺、成本高昂或无法获取的应用场景。
DINOv3 不仅在缺乏标注或跨领域的场景(网络图像与卫星影像)中表现出绝对的性能领先,还在计算机视觉三大核心任务(分类、检测、分割)上实现了 SOTA。
网友表示:我还以为你们已经不行了,好在你们终于搞出点东西来了。
计算机视觉的自监督学习
说起计算机视觉,就绕不开李飞飞老师推动的 ImageNet 和大规模标注数据。
然而,随着数据量的激增以及应用场景不断扩展,标注成本和可获取性成为了制约视觉模型通用性的主要因素。
基于这一思路,DINOv3 采用了创新的自监督学习方法,专注于生成高质量且高分辨率的视觉特征,为下游视觉任务提供强大的骨干模型(backbone)支持。
通过这一方法,DINOv3首次实现了单一冻结视觉骨干网络(Single Frozen Vision Backbone)在多项密集预测任务(Dense Prediction Tasks)中超越专门化解决方案的性能。
那么,DINOv3 是怎么做到的?
总的来说,DINOv3 的训练过程分为两个主要阶段:
DINOv3 在一个庞大且精心构建的数据集上进行大规模自监督训练,从而学习到通用且高质量的视觉表示
引入名为 "Gram anchoring" 的新方法来解决训练中密集特征图的退化问题,在不影响全局特征的同时,显著提升局部特征的质量
具体来说,研究者首先构建了一个包含约17 亿张图片的预训练数据集。
这些图片数据主要来自Instagram上的公开图片,以及少量来自ImageNet的图片。
在对数据集进行分类、采样后,研究者采用判别式自监督(Discriminative Self-supervised),通过 Sinkhorn-Knopp 算法和 Koleo 正则稳定特征分布,实现了细粒度又稳健的密集特征学习。
此外,在继承 DINOv2 成功方法的基础上,DINOv3 将模型参数从 11 亿扩展至 70 亿,以增强骨干网络的表示能力,从而能够从海量图像中学习更丰富、细粒度的视觉特征。
相比 v2,DINOv3 在训练策略上引入了 RoPE-box jittering,使模型对分辨率、尺度和长宽比变化更具鲁棒性,同时保留多裁剪训练和恒定学习率 +EMA 教师动量优化的做法,确保训练稳定且高效。
在大规模训练中,DINOv3 的 70 亿参数模型可以通过长时间训练显著提升全局任务性能,因此研究者在最初就寄希望于长时间训练。
然而,密集预测任务(如图像分割)往往会随着训练迭代次数的增加而下降,而这种退化主要源于 patch-level(补丁级别)特征的一致性丧失:
随着训练进行,原本定位良好的 patch 特征逐渐出现不相关 patch 与参考 patch 相似度过高的现象,从而削弱了模型在密集任务中的表现。
为了应对这一问题,研究团队提出了 "Gram anchoring" 方法,即通过将学生模型的 patch Gram 矩阵逼近早期训练阶段表现优异的教师模型的 Gram 矩阵,来保持 patch 间的相对相似性,而不限制特征本身的自由表达。
实验表明,在应用 Gram anchoring 后,ADE20k 分割任务有着显著的提升,且训练稳定性明显增强。
这表明保持 patch-level 一致性与学习判别性全局特征之间可以有效协调,而在有针对性的正则化下,长时间训练也不再牺牲密集任务表现。
此外,通过将高分辨率图像输入到 Gram 教师并下采样至与学生输出相同的尺寸,仍然获得了平滑且一致的 patch 特征图。
实验结果显示,即便经过下采样,高分辨率特征中优越的 patch-level 一致性仍得以保留,从而生成更加平滑、连贯的 patch 表示。
最后,由于 DINOv3 在最初训练时使用了相对较低的分辨率(256 × 256),为了让模型适应高分辨率的图像场景,研究团队在训练后增加了一个 " 高分辨率适应步骤 ",从而让模型在学会处理更大尺寸图像的同时,还能保持性能稳定。
在这一适应步骤中,DINOv3 结合了" 混合分辨率 "(mixed resolutions)策略与 Gram anchoring 方法,使模型在处理更大、更复杂的图像时仍能保持稳定且精细的特征表示,同时兼顾全局任务与密集预测任务的性能。
最后,为了验证 DINOv3 的性能,研究团队在包含密集特征、全局特征任务在内的多个计算机视觉任务上对 DINOv3 7B 模型进行了评估。
就像我们在开头提到的,DINOv3 在语义分割、单目深度估计、非参数方法、3D 对应估计等任务中实现了 SOTA。
值得一提的是,由于 DINOv3 强大的通用性,它还消除了研究人员与开发者为了特定任务而对模型进行微调的必要。
此外,为了方便社区部署,Meta 还通过蒸馏原生的70 亿参数模型 DINOv3,构建了一个开发环境友好的 v3 模型矩阵:VisionTransformer ( ViT ) 的 Small、Base 和 Large 版本,以及基于 ConvNeXt 的架构。
其中,ViT-H+ 模型在各种任务上取得了接近原始 70 亿参数教师模型的性能。
据悉,Meta 也透露将发布具体的蒸馏流程,以便社区能够在此基础上继续构建与改进。
DINO 行动
在实际应用中,DINOv3 也展现了强大的泛化能力。
例如,在与世界资源研究所(WRI)合作中,Meta 利用 DINOv3 开发了一种算法,能够利用 DINOv3 分析卫星影像,检测受影响生态系统中的树木损失与土地利用变化。为全球森林恢复和农业管理提供了强有力的技术支持。
与 DINOv2 相比,在使用卫星与航空影像进行训练的情况下,DINOv3 将肯尼亚某地区树冠高度测量的平均误差从 4.1 米降低至 1.2 米。
除此此外,DINOv3 还在多个遥感任务(包括语义地理空间任务和高分辨率语义任务等)中取得了 SOTA。
最后,DINO(Distillation With NO Labels)系列作为 Meta 对视觉领域自监督方法的探索,可以说是一脉相承,继往开来,标志着视觉模型大规模自监督训练的持续进步。
从 DINO 的初步研究概念验证,使用100 万张图像训练8000 万参数的模型,
到 DINOv2 中基于1.42亿张图像训练的1B参数模型,SSL 算法的首次成功扩展,
再到如今 DINOv3 的70 亿参数和17 亿张图片,
Meta 的这套自监督训练方法有望引领我们迈向更大规模、通用性更强,同时更加精准且高效的视觉理解。
就像 Meta 在技术文档中所描述的:
DINOv3 不仅可以加速现有应用的发展,还可能解锁全新的应用场景,推动医疗健康、环境监测、自动驾驶、零售以及制造业等行业的进步,从而实现大规模、更精准、更高效的视觉理解。
参考链接
[ 1 ] https://huggingface.co/docs/transformers/main/en/model_doc/dinov3
[ 2 ] https://x.com/AIatMeta/status/1956027795051831584
[ 3 ] https://github.com/facebookresearch/dinov3
[ 4 ] https://ai.meta.com/blog/dinov3-self-supervised-vision-model/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=dinov3
[ 5 ] https://ai.meta.com/research/publications/dinov3/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦