驱动之家 09-23
美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 9 月 23 日消息,美团 LongCat 团队正式发布全新高效推理模型—— LongCat-Flash-Thinking。

在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。

综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA),部分任务性能接近闭源模型 GPT5-Thinking。

同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备 " 深度思考 + 工具调用 " 与 " 非形式化 + 形式化 " 推理能力相结合的大语言模型。

该团队还表示,尤其在高复杂度的任务(如数学、代码、智能体任务)处理上,新模型具备显著优势。

具体表现如下:

通用推理能力:LongCat-Flash-Thinking 具备卓越的通用推理能力,尤其在需要结构化逻辑的任务中表现突出。其在 ARC-AGI 基准测试中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等顶尖闭源模型。

数学能力:LongCat-Flash-Thinking 在数学推理方面展现出强大实力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显——在 HMMT 和 AIME 相关基准上取得突破性成绩,超越 OpenAI o3,和 Qwen3-235B-A22B-Thinking 等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。

代码能力:在编程领域,LongCat-Flash-Thinking 展现出开源模型最先进的性能(SOTA)与综合实力。在 LiveCodeBench 上以 79.4 分显著超越参与评估的开源模型,并与顶级闭源模型 GPT-5 表现相当,证明其解决高难度编程竞赛问题的卓越能力。在 OJBench 基准测试中也以 40.7 的得分保持极强竞争力,并接近领先模型 Gemini2.5-Pro 的水平。

智能体能力:LongCat-Flash-Thinking 在复杂的、工具增强型推理(Tool-augmented Reasoning)方面表现突出,在智能体工具调用(Agentic Tool Use)上展现出强劲能力。其在 τ 2-Bench 上以 74.0 分刷新开源 SOTA 成绩,并在包括 SWE-Bench、BFCL V3 和 VitaBench 等基准测试中展现出超强竞争力。

ATP 形式推理能力:LongCat-Flash-Thinking 在 MiniF2F-test 基准中的 pass@1 获得 67.6 的分数,大幅领先所有其他参与评估的模型,在 pass@8 和 pass@32 中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。

目前,LongCat-Flash-Thinking 已在 HuggingFace、Github 全面开源,并在官网可体验。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

美团 数学 开源 编程 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论