量子位 1小时前
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当整个 AI 行业陷入 " 参数竞赛 " 的狂热时,微博 AI交出了一份出乎意料的答卷,为沸腾的大模型战场开辟了一条充满想象力的新路径。

近日,微博正式发布首个自研开源大模型VibeThinker,这个仅拥有 15 亿参数的 " 轻量级选手 ",在国际顶级数学竞赛基准测试上击败了参数量是其数百倍的、高达 6710 亿的 DeepSeek R1 模型。

更令人瞩目的是,其单次 " 后训练 " 的成本仅7800 美元,对比 DeepSeek-R1 和 MiniMax-M1 等成本直接降低了几十倍。

这一突破不仅重新定义了大模型的技术评价标准,更有望推动 AI 产业从 " 规模竞赛 " 转向 " 效率革命 "。

行业黑马:小模型打破参数崇拜

在 AI 发展史上,参数量曾被视为衡量模型能力的核心指标。

行业普遍认为,复杂推理能力需要 1000 亿以上参数才能涌现,而小模型则因无法处理高难度问题被视为 " 天生不足 "。

但如果从小模型入手,通过巧妙的训练策略,能否挖掘出隐藏的推理能力?

微博自研开源大模型 VibeThinker,给出了行业一个肯定的答案。

当大多数 AI 厂商仍遵循着 " 规模扩大即智能提升 " 的 Scaling Law 法则时,微博 AI 研发人员转而优化模型结构和训练范式,并创新提出了" 频谱到信号原理 "(SSP)方法训练,创造出了一个仅拥有 15 亿参数的 " 轻量级选手 ",但在 AI 竞技场上战胜了超越其数百倍体量的 " 巨人 "。

VibeThinker 一经发布,立即引起了全球 AI 研究界的广泛关注,因其在一系列涵盖数学、编码的权威基准测试中,交出了一份出乎意料的答卷:

HuggingFace 官方主动下场发文宣传 VibeThinker 论文

在 AIME24、AIME25 以及 HMMT25 三个高难度数学测试集上的表现,VibeThinker 超越了参数量超其 400 倍的模型 DeepSeek-R1-0120 版本(模型大小 671B),与规模为 456B 的 MiniMax-M1 效果接近或相当,甚至媲美 Gemini 2.5 flash 和 Claude Opus 4。

此外,在 LiveCodeBench v6(编程算法题测试集)中的成绩,VibeThinker 成功追平参数量数超其数十倍的模型,比如欧洲领先 AI 企业 Minstral.AI 的深度思考模型 Magistral-Medium-2506 版本。

VibeThinker 雄辩地证明,通过精巧的算法设计和训练策略,一个小规模模型完全有潜力在复杂的逻辑推理任务上,达到甚至超越那些体量庞大数百倍的巨型模型,更为 AI 产业的成本结构、技术路线和资本布局带来了全新的思考路径。

需要说明的是,VibeThinker 目前发布的版本尚处于实验性版本,其研发重点主要集中于极大强化小模型复杂数学与竞赛编程等方面的能力,其在日常聊天等能力还没有做过针对性训练优化,所以暂不适合作为日常聊天工具进行互动,更适用于数学和代码等高智能应用场景。

成本革命:7800 美元门槛重塑产业生态

训练成本一直是制约 AI 技术普及的关键瓶颈,VibeThinker 的成就不仅在于惊艳的性能,更在于其极致的成本效益。

根据公开数据,2025 年主流大模型单次后训练(Post-Training)成本普遍在数十万美元级别。

上海 AI 企业 MiniMax 于今年 6 月发布的 M1 模型,使用 512 块 H800 GPU 训练三周,租赁成本约 53.5 万美元,创始人发文表示:" 第一次感觉到大山不是不能翻越。"

今年 9 月,AI 初创公司 DeepSeek(深度求索)的论文登上《自然》杂志。论文首次揭示了训练 R1 的成本:仅为 29.4 万美元。这不包括 DeepSeek 公司在开发 R1 所基于的基础 LLM(即 DeepSeek-V3)上花费的约 600 万美元,但总成本仍然远低于竞争对手模型被认为花费的数千万美元。

在这样的行业背景下,VibeThinker 整个后训练过程(包括 SFT 和 RL 阶段)总共只花费了约 3900 个 GPU 小时。按照当时的市场租赁价格,总计算成本仅7800 美元

这也意味着,其用不到 8000 美元的成本,达到了需要花费 30 万、甚至 50 万美元才能企及的性能水平,成本效益比达到了惊人的30 到 60 倍

这种成本上的显著优势,也意味着强大的 AI 推理能力不再是少数科技巨头的专利,原本被巨头垄断的技术资源得以普惠,更多中小型公司、研究机构和大学,都有机会参与到前沿 AI 创新开发中来,极大地促进了 AI 研究的普惠化,推动整个行业朝着更开放、更多元、更具活力的方向发展。

应用落地:微博 AI 生态多点开花

技术突破的最终价值在于应用落地

微博积极拥抱人工智能发展趋势,全面促进 AI 技术在多项业务场景的落地。

2024 年,微博自主研发" 知微 " 大语言模型,并成功通过备案,更陆续推出微博智搜、内容总结、AI 互动号等前沿功能,优化用户体验,提升内容生产和互动效率。

基于自研的 " 知微 " 大模型,微博构建了适配微博场景的 AI 应用生态,并创造了两大顶流 AI 产品:

一是微博智搜,它通过深度分析平台内海量优质内容,构建可信知识图谱,实现 " 精准捕捉用户需求、理解情感与场景 " 的突破性体验,6 月智搜月活跃用户突破 5000 万;

二是评论罗伯特,作为 AI 互动账号,它从毒舌风格起步,逐渐进化出温情与聪明版本,成为广大用户 " 又爱又恨 " 的交流对象,全网粉丝近 200 万,展现了 AI 评论助手的另一种可能性。

随着自研大模型 VibeThinker 取得突破,更标志着微博 AI 战略迈入新阶段。

立足于自研大模型 VibeThinker,微博的未来规划凸显了鲜明的 " 数据赋能 " 路径。公司计划深度融合其在心理等垂直领域积累的独特数据资产,目标是打造一个更洞悉公众情绪、更能服务社会化需求的专属模型。

微博不仅是在优化一个大模型,更是在解锁其数据生态的深层价值,以提供更精准、更懂用户心理状态的下一代社交服务。

VibeThinker 的强大技术能力,或将成为驱动微博 AI 应用 " 多点开花 " 的核心引擎,深度融入平台全业务生态。

未来,VibeThinker 有望在微博智搜等核心 AI 产品中落地,不仅能持续提升用户使用体验,更有望打破场景边界,裂变出兼具社交属性与智能服务的下一个 " 社交超级生态 "。

此外,VibeThinker 的技术突破有望大幅降低微博 AI 应用成本。

无论是智能搜索的算力损耗,还是实时互动场景的 AI 响应成本,都将得到高效优化,让平台在规模化投入 AI 能力时无需承担过高的资源压力,进一步释放微博的生态创新能力,为用户带来更丰富、更便捷的智能体验。

* 本文系量子位获授权刊载,观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 数学 竞赛 开源 答卷
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论