美团王兴狂卷大模型！开源561B“全能”龙猫模型，上线首款AI通用助手App

智东西

作者 | 程茜

编辑 | 李水青

智东西 11 月 3 日消息，今天，美团正式开源全模态模型 LongCat-Flash-Omni，模型总参数量 5600 亿，激活参数量 270 亿。美团官方博客称，LongCat-Flash-Omni 是业界首个实现全模态覆盖、端到端架构、大参数量高效推理于一体的开源大语言模型。

LongCat-Flash-Omni 中的 "Omni" 译为 " 全能 "，其在全模态基准测试中达到开源 SOTA，同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中均有明显优势，实现 " 全模态不降智 "。

LongCat-Flash-Omni 基于 LongCat-Flash 构建，后者采用了高性能的 Shortcut 连接的混合专家（MoE）架构，并实现了零计算专家，LongCat-Flash-Omni 集成了高效的多模态感知和语音重建模块，支持 128K tokens 上下文窗口及超 8 分钟音视频交互。

在预训练阶段，研究人员收集了包含超过 2.5 万亿个词元的大规模、多样化的多模态语料库用于预训练，同时采用渐进式训练策略，逐步从简单的序列建模任务过渡到更复杂的序列建模任务。

这是 9 月 1 日以来，美团正式发布 LongCat-Flash 系列后的第三款模型，此前其已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本。

值得一提的是，今天美团 LongCat 官方 App 开启公测，目前支持联网搜索，还可以发起语音通话，视频通话功能后续上线。LongCat-Flash-Omni 目前可以在网页版和 App 端体验音频交互功能。

LongCat 官方 App 首页（左）、LongCat 官方 App 音频通话（右）

据 LongCat 官方交流群中的官方透露，目前 LongCat 的文本端模型是 longcat-flash，当有多模态输入，比如图片和 PDF 内容时，会自动调用 omni 模型。不过智东西体验时发现，在 LongCat 中上传 .jpg 格式图片时一直显示上传错误。今天中午，官方还修复了一波安卓端联网搜索相关问题，需要安卓用户卸载重装。

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

GitHub：https://github.com/meituan-longcat/LongCat-Flash-Omni

体验地址：https://longcat.chat/

一、视觉、音频、文本理解生成，拿下多项开源 SOTA

研究人员将 LongCat-Flash-Omni 与各种闭源和开源的多模态模型进行比较，包括视觉理解、音频理解、文本理解和生成、跨模态理解以及视听交互。其将 LongCat-Flash-Omni 与 Gemini-2.5-Pro、GPT4o、Seed-1.6 和 Qwen3-Omni 和视觉语言模型 Qwen3-VL、Qwen2.5-VL-72B 等进行了比较。

图像转文本方面，总体而言，LongCat-Flash-Omni 的性能与 Gemini-2.5-Flash 相当，并且优于开源的 Qwen3-Omni，其优势在多图像任务上尤为显著。

视频转文本方面，LongCat-Flash-Omni 在视频转文本任务上取得了最先进的性能。具体而言，它在短视频理解方面显著优于所有对比模型，在长视频任务上，LongCat-Flash-Omni 的性能与 Gemini-2.5-Pro 和 Qwen3-VL 等模型不相上下。在 VideoMME 基准测试中，它在全模态模型中取得了最佳性能。

音频能力中，研究人员主要评估了自动语音识别（ASR）、文本转语音（TTS）和语音延续。

基础模型在预训练阶段的 ASR 和 TTS 性能结果显示，不同阶段的基础模型在上下文语音延续评估中表现良好，文本输出和语音输出之间的性能差异可以忽略不计。

在语音识别和翻译、音频理解、语音转文本能力中，在所有模型中，LongCat-Flash-Omni 的语音识别与翻译测试集 S2TT 中表现最好最强；LongCat-Flash-Omni 在没有视觉输入的情况下，能够有效地作为原生音频理解模型运行；在语音转文本测试集中，LongCat-Flash-Omni 在所有基准测试子集中均表现出色，并在多个案例中达到了最先进的水平。

此外，LongCat-Flash-Omni 还引入了高级跨模态理解和类人语音交互功能，能够处理跨模态输入。

评估结果显示，LongCat-Flash-Omni 的性能优于

Gemini-2.5-Flash-non-thinking，并达到了与 Gemini-2.5-Pro-ThinkingBudget128 相当的水平。

在强调真实世界音视频理解的 WorldSense 和 DailyOmni 测试中，LongCat-Flash-Omni 超越了其他开源全模态模型。在评估跨模态感知和推理能力的 UNO-Bench 测试中，LongCat-Flash-Omni 在开源全模态模型中也表现出色。

实时音视频交互的评估结果显示，LongCat-Flash-Omni 在端到端交互的自然度和流畅度方面得分排名第三。与音视频交互产品相比，LongCat-Flash-Omni 的排名低于豆包和 GPT-4o，但优于科大讯飞星火和 StepFun。

值得注意的是，LongCat-Flash-Omni 在开源替代方案中得分比目前最先进的开源模型 Qwen3-omni 高出 0.56 分。

目前，LongCat 支持音频通话 10 分钟，且响应很快，智东西让其 " 讲一个睡前小故事 "，LongCat 就实时生成并进行了讲述。

二、剑指全模态大模型训练四大挑战，美团提出四大创新技术思路

训练既具备强大的离线多模态理解能力又具备实时音视频交互能力的全模态模型的挑战性在于：

跨模态异构性指的是，不同模态之间存在显著差异，因此需要探索有效的统一表征和融合策略，以实现跨模态的协同作用，确保任何单一模态的性能都不会低于同等规模的单模态对应模态。

统一的离线和流媒体能力，将离线多模态理解与流媒体音视频交互相结合是一项重大挑战，流媒体交互场景需要一些离线处理通常不具备的独特能力，例如感知相对时间、精确同步音视频信息以及高效管理多轮交互上下文。

实现实时音视频交互本身就存在诸多难点，包括需要同时支持流媒体音频和视频输入以及流媒体语音输出，严格的低延迟要求进一步对计算效率提出了严格的限制，从而对模型架构设计和部署基础设施都提出了很高的要求。

训练效率挑战，模型和数据的异构性给分布式策略的设计带来巨大挑战。

为克服第一个挑战，研究人员设计了一个多阶段大规模预训练流程。基于早期文本预训练基础模型，他们逐步将音频和视频数据融入大规模预训练过程，采用均衡的多模态数据混合和有效的早期融合策略，使得该模型在保持强大单模态性能的同时，实现跨模态的深度融合理解。

LongCat-Flash-Omni 模型架构概览

为了应对平衡离线多模态理解与实时音视频交互的第二个挑战，研究人员引入一种人机协同策略来构建高质量的交互数据，并考虑到长期记忆和多轮对话的处理。此外，其从现有的视觉文本语料库中提取视觉语音问答数据，从而实现自然语音输出，有助于将强大的离线多模态理解能力迁移到交互场景中。

对于第三个挑战，研究人员采用 ScMoE 架构，并以 LongCat-Flash 的零计算专家作为大模型骨干。为了处理流式输入，其采用高效的音频和视频编码器进行特征提取，并引入同步分块交错策略以实现实时处理。

对于第四个挑战，研究人员进行了大规模全模态分布式训练，其提出一种模态解耦并行（MDP）策略。该方法能够独立优化大模型、视觉编码器和音频编码器的性能和内存使用情况。

实验结果表明了该策略的有效性，其系统能够保持纯文本训练吞吐量的 90% 以上。

三、采用五阶段渐进式训练策略，借鉴 LongCat-Flash 训练基础设施

LongCat-Flash-Omni 是一个端到端全模态模型，可以接收多种模态的输入，包括文本、音频、图像、视频及其任意组合，并能够直接从大模型主干网生成语音 token。

该模型采用视觉编码器和音频编码器作为多模态感知器，大模型处理多模态输入并生成文本和音频 token，音频解码器从大模型生成的语音 token 中重构波形，从而实现自然的语音交互。其中，音频编码器、视觉编码器和音频解码器均为轻量级组件，每个组件的参数量约为 6 亿个。

在预训练阶段，数据整理方面，研究人员收集了包含超过 2.5 万亿个词元的大规模、多样化的多模态语料库用于预训练。该预训练语料库由音频数据、通用图像 - 文本数据、视频数据、OCR、长上下文多模态数据等部分组成。

训练全模态模型最根本的挑战之一在于不同模态间数据分布的显著异质性，面对这一挑战，研究人员采用了一种渐进式训练策略，该策略逐步从简单的序列建模任务过渡到更复杂的序列建模任务。

训练策略

研究人员首先进行大规模文本预训练（阶段 0），在此基础上引入结构上更接近文本的语音数据，以将声学表征与语言模型的特征空间对齐，并有效地整合副语言信息（阶段 1），语音 - 文本对齐完成后，其引入大规模图像 - 描述对和视觉 - 语言交错语料库（阶段 2），以实现视觉 - 语言对齐，从而丰富模型的视觉知识。

预训练阶段 1 示意图

然后，研究人员会引入最复杂的视频数据以实现时空推理（阶段 3），同时整合更高质量、更多样化的图像数据集，以增强视觉理解能力。为了进一步支持长上下文推理和多轮交互，其将模型的上下文窗口从 8K 个词元扩展到 128K 个词元（阶段 4）。

最后，为了减少离散语音词元表示的音频输入的信息损失，他们引入了一个音频编码器对齐阶段（阶段 5），使模型能够直接处理连续的音频特征，从而提高下游语音任务的保真度。

在训练后阶段包含两个组成部分：监督式微调、强化学习。

监督微调通过高质量且多样化的指令数据赋予模型多模态指令遵循、推理和语音交互能力；强化学习通过直接偏好优化（DPO）进一步增强模型的行为一致性、连贯性和一致性。

在基础设施方面，LongCat-Flash-Omni 的核心设计原则借鉴了 LongCat-Flash 开发过程中使用的训练基础设施，为了保证数值一致性，研究人员强制执行确定性、最小化误差并保持误差的可解释性，从而确保每次训练运行都具有确定性和可复现性。为了提高效率，他们将大模型、视觉编码器和音频编码器的各个组件解耦，从而可以独立优化它们的性能和内存使用情况。

实验结果表明，在多模态环境下，他们的系统能够保持纯文本训练 90% 以上的吞吐量。

推理与部署时，研究人员提出解耦的多模态推理框架，该框架将特定模态的编码器 / 解码器与层级模型分离，以实现优化部署。每个模块都部署在与其计算特性相匹配的专用硬件和加速器上，从而缓解跨模态资源争用。

其还采用异步流式模型服务管道，每个模块都支持流式输入的增量推理和自适应批处理策略，从而实现并发调度以降低延迟。

结语：未来要探索更丰富的具身智能交互形式

大量评估表明，LongCat-Flash-Omni 不仅在 Omni-Bench 和 WorldSense 等全模态基准测试中取得了最先进的性能，而且在图像和视频理解以及音频理解等关键单模态任务中，其性能也与闭源系统持平甚至更优。此外，主观评估证实了该模型能够提供自然、低延迟、高质量的交互体验，凸显了其作为下一代人机交互界面基础的巨大潜力。

研究人员提到，基于 LongCat-Flash-Omni，他们未来的工作将着重于扩展训练数据的多样性和规模、整合自适应思维模式、完善流式传输和生成能力，并探索更丰富的具身智能和交互智能形式。他们相信，LongCat-Flash-Omni 的发布不仅将加速多模态理解和生成的研究，还将启发构建以人为本、面向通用人工智能系统的新应用和新范式。

宙世代

一起剪

相关标签