量子位 07-31
谢赛宁团队新作打破“多语言诅咒”!MetaCLIP 2支持300多种语言,英语性能反倒提升了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谢赛宁团队新作正在引起热议!

一直以来,作为文生图基石的 CLIP 模型主要基于英文数据训练,但实际上,全球互联网仍有超过 50%的非英文数据。

为了将 CLIP 模型进一步扩展,研究人员需要搞定两大 " 拦路虎 ":

缺乏处理非英语数据的筛选方法;

现有多语言 CLIP 的英语性能比纯英语版本差(即所谓的 " 多语言诅咒 ")。

而谢赛宁团队正是在这两方面取得突破。他们提出了首个基于全球数据从头训练的 CLIP ——MetaCLIP 2,通过扩展元数据、优化筛选和提升模型容量,斩获了以下成果:

搭建了能处理300 多种语言的 CLIP 数据整理流程。

打破了 " 多语言诅咒 ",不仅没有影响英语任务的表现,而且反倒还提升了。

论文一作 Yung-Sung Chuang(MIT 博士生、现 Meta 实习生)激动表示:

是时候告别语言过滤器了!

刚被小扎从 OpenAI 挖走的 Lucas Beyer 也出来对这一观点表示认同,顺带还感谢了论文中的引用:

很高兴看到我们提出并始终倡导的"NoFilter" 理念能在 MetaCLIP 2 中得到应用。

这就是正确的道路!

这也引来了谢赛宁本人的回应:

早在 MetaCLIP 中,团队的目标也是 NoFilter(与其搞复杂过滤,不如相信原始数据的价值)。

我也认为 NoFilter 才是正道。

下面详细来看 MetaCLIP 2 所采用的方法。

基于 MetaCLIP,进一步优化结构和流程

概括而言,为了让 CLIP 模型能从全球数据中学习,MetaCLIP 2 采用了三大关键创新:

构建全球元数据

实施全球筛选算法

构建全球模型的训练框架

开始之前,论文先回顾了原始 MetaCLIP所采用的思路。

简单说,其筛选逻辑主要分三步:

从英语 WordNet、维基百科提取 50 万个 " 视觉概念 ",组成元数据列表 M;

用这些概念匹配图像 - 文本对的描述文字(逐个检查文本里的内容,看能否匹配到 M 里的词条);

设定一个阈值 t,通过 " 平衡机制 "(控制头部 / 尾部概念的比例)筛选数据,确保 " 猫 "" 狗 " 这类常见概念和 " 深海生物 "" 小众建筑 " 这类少见概念分布合理。

顺便一提,OpenAI CLIP 将 t 设置为 20k,而 MetaCLIP 为了适配十亿级英语数据,把 t 调高到 170k ,让平衡策略更适合大规模数据。

而 MetaCLIP 2,正是在英文 MetaCLIP 的基础上,进一步优化了架构和流程。

这第一步非常简单,无非是将之前的元数据扩展到 300 多种语言。

具体而言,它现在包含了多语言的 WordNet 和各国维基百科的词汇,有点像给每种语言都编了一套 " 视觉概念词典 "。

然后用算法给每种语言 " 量身筛数据 "。

先是识别文字是哪种语言,再用对应语言的 " 字典 " 去匹配图像 - 文字对。

同时给每种语言设立单独的筛选标准(比如控制 " 常见概念 " 和 " 少见概念 " 的比例),确保每种语言的数据分布合理,不会出现某类内容过多的情况。

下图为 MetaCLIP 2 筛选全球多语言图像 - 文本对的伪代码(用 Python/NumPy 风格编写):

最后再调整训练策略,避免 " 顾此失彼 "。

一方面,鉴于全球数据变多了,所以团队按比例增加了训练时 " 见过的样本量 "(比如扩大 2.3 倍),保证英语样本量不减少。

另一方面,团队发现模型大小很关键——小一点的模型(如 ViT-L/14)还会受 " 多语言诅咒 ",但大一点的 ViT-H/14 能打破诅咒,让英语和非英语能力一起提升。

p.s. 大语言模型中的 " 多语言诅咒 " 是指,当模型在多语言数据上进行训练时,出现某些特定语言(尤其是原本表现较好的语言,如英语 )性能下降的现象。

采用以上数据筛选方法,MetaCLIP 2 与 NoFilter 理念形成了深度协同——筛选逻辑的本质从 " 语言过滤 "(如直接排除非英语数据)转向 " 概念平衡 ",从 " 排除数据 "(如用单一标准排除数据)转向 " 优化分布 "。

多语言任务创下新 SOTA,还打破了 " 多语言诅咒 "

为了验证方法的有效性,团队基于全网公开数据(英语占 44%,非英语占 56%)进行了实验。

训练配置上,团队基本沿用 OpenAI CLIP/MetaCLIP 的参数,仅调整样本量(如 ViT-H/14 用 290 亿样本)和模型容量。

实验结果显示,MetaCLIP 2 在多项测试中表现亮眼:

首先,它打破了大语言模型领域存在的 " 多语言诅咒 ",证明学了非英语数据后,英语能力不仅没有下降,甚至反而变强了。

例如,它在 ImageNet 识别日常物品上准确率达到 81.3%,超过纯英语 CLIP 的 80.5%。

其次,它在多语言测试中(如用 280 种语言给图片分类、跨 36 种语言搜图),成绩远超之前的 mSigLIP、SigLIP 2 等模型。

还是上面这张图,它在 Babel-ImageNet 多语言图像分类任务里,取得了 50.2% 的准确率;在 XM3600 图像到文本检索任务中,检索匹配的准确率达到 64.3%。

更有意思的是,MetaCLIP 2 不仅更懂 " 文化多样性 ",而且嵌入质量也更优。

一方面,它在文化多样性任务(如地理定位)上表现更优,如在 Dollar Street、GLDv2 等数据集上,全球数据训练的模型准确率显著高于纯英语或纯非英语模型。

另一方面,它在对齐性(图像 - 文本相关性)和均匀性(视觉嵌入分布)上的得分同样更优。

划重点,目前相关数据和代码均已开源了 ~

论文:

https://arxiv.org/abs/2507.22062

代码地址:

https://github.com/facebookresearch/MetaCLIP

参考链接:

[ 1 ] https://x.com/YungSungChuang/status/1950575753449681350

[ 2 ] https://x.com/giffmana/status/1950657494709125447

[ 3 ] https://x.com/sainingxie/status/1950689320722952550

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

希望了解 AI 产品最新趋势?

量子位智库「AI 100」2025 上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英语 lucas 生物 互联网
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论