季度AI视频生成产品：多模态输入成标配，角逐一站式生成能力

The following article is from 量子位智库 Author AI 100 组委会

现在谷歌直接对标 Sora2 推出 Veo3.1，主攻音频生成助推形成新高潮。

国外大厂你追我赶，将 AI 视频生成卷到电影制作级的创意能力。

国内企业也不甘居后，追求秒级生成且高清、稳定的视频产品，并落地更加细化的垂直场景。

此外，视觉模型与世界模型的深度融合，也让 AI 视频生成产品能够构建更加逼真细腻的 3D 物理场景，为无限且一致的视频生成提供技术动力。

量子位智库最新发布2025Q3 AI 100 榜单中的 AI 视频生成产品，也呈现出综合性、多维度的技术演进路径。

在生成能力上，多模态输入已成为标配，普遍支持文生视频、图生视频，并逐步实现音画同步生成，更进一步者实现 Agent 一站式生成，打造 AI 视频生成全流程体系。

在输出质量上，角色一致性、分镜设计、关键帧控制及口型同步等更加稳定可控，输出视频时长从几秒显著延长至数分钟，同时画面分辨率普遍提升至 2K 甚至 4K 级别，帧率可达 60fps，确保了流畅的视觉体验，为各类场景应用提供稳定性高质量服务。

从用户数据来看，也印证了这一趋势。

量子位智库 9 月最新观察数据显示，共有 5 款 AI 视频生成产品访问量超过 20 万，分别是「旗舰 100」中的即梦 AI、可灵 AI、RoboNeo、海螺 AI，以及「创新 100」榜单中的Vidu。

此外，综合类 AI 产品如豆包、通义万相、智谱清影、阶跃 AI 等也具备 AI 视频生成功能。（详情可见量子位智库其他 AI 产品观察报告）

旗舰 10001、即梦 AI（Agent）

来自字节跳动。核心定位为下一站式 AI 创作与内容平台。

即梦 AI 核心功能包括「AI 图片生成」和「AI 视频生成」。图片生成层面，依托 Seedream 3.0/3.1 模型，支持一句话改图、平面草图转 3D 功能、智能画布和动态海报等功能。

视频生成层面，基于 Seedance 1.0 模型，支持文生视频和图生视频（最长 3 分钟），Agent 模式可以一站式生成视频，提供首尾帧控制、镜头运动、对口型数字人和故事创作模式（剧本→分镜→成片）等功能，画面细节、物理运动一致性方面表现出色。

△即梦 AI web 端主页 02、腾讯混元 3D

来自腾讯。核心定位为一站式 3D 内容 AI 创作平台。

腾讯混元 3D 基于混元 3D 2.5 模型，支持文生 3D 和图生 3D，且通过世界模型还支持文 / 图生 360 ° 沉浸式场景，可自由漫游、物理仿真，让「一句话变 3D 世界」从概念走向真正的生产力工具。

△腾讯混元 3D web 端主页 03、可灵 AI

来自快手。核心定位为AI 创意生产力平台。

可灵 AI 基于快手自研可灵 2.5 Turbo 模型，提供具备稳定性更强的高质量视频、及图像生成和编辑能力，支持「首尾帧稳定丝滑的画面衔接」「多图参考指定角色生成视频」「拥有百余种风格」，满足创作者在想象力发挥以及对创意素材生产与管理的需求。

△可灵 AI web 端主页 04、小云雀（Agent）

来自字节跳动。核心定位为零门槛 AI 内容创作 Agent。

小云雀接入 Seeddream4.0 模型，支持一句话 AI 生成脚本、分镜、剪辑、配乐的视频全流程生产，可商用数字人输入文字自动生成口播视频，可生成视频长度 15s-60s 不等，普通人也能产出专业级视频。AI 图片设计支持智能换背景、光影优化、精准抠图等功能。

△小云雀 app 端介绍页 05、海螺 AI

来自 MiniMax（稀宇科技）。核心定位为AI 视频生产力平台。

海螺 AI 支持文生视频和图生视频，还能将 2D 插画转动态视频，实现动画电影级效果。AI 驱动角色情感展现增强视频感染力，支持 2K 高清视频生成，帧率 60fps，可在 30 秒内创建 6 秒的短视频片段。

△海螺 AI web 端主页 06、绘想

来自百度，核心定位为AI 视频创作平台。

绘想基于自研 MuseSteamer 模型，提供 Turbo/Pro/Lite/ 有声版 /1.0turbo 五种模型选择，支持音视一体化视频生成及 11 种创意特效，适配中文语境，适用于短视频创作、广告制作等场景，并增添长视频内测。

△绘想 web 端主页 07、开拍

来自美图公司。核心定位为用 AI 制作网感口播视频的生产力工具。

开拍旨在为创作者打造全链路一站式的影像生产力服务，通过 AI 帮助口播视频创作者解决从脚本灵感到高清画质拍摄、视频人像精修、后期智能剪辑等全流程问题，支持智能加字幕、智能补帧、眼神矫正、手机电脑协同创作等功能。

△开拍 web 端主页 08、RoboNeo（Agent）

来自美图公司。核心定位为专注影像生产力的 Al Agent。

RoboNeo 以「一句话搞定影像生产力」为核心，支持对话式修图、设计及视频生成，工作流模式具备全链路图片视频创作能力，支持商业级精修、AI 设计生成、视频创作、网页建站等功能，面向电商、品牌、创作者等提供「美图全家桶」级一站式 AI 影像处理能力。

△ RoboNeo web 端主页 09、Tripo

来自 VAST。核心定位为面向专业创作者与大众的云端 AI 3D 建模平台。

Tripo 主打 10 秒级时间把文字或图片变成可打印、可动画、可商用的高保真 3D 资产，支持文生 3D、图生 3D、智能分割、智能低多边形生成、魔法笔纹理生成等方向应用。最新的 Tripo 3.0 模型提供雕刻级几何精度和出色的表面支持。

△ Tripo web 端主页 10、Meshy

来自 Meshy。核心定位为零门槛 AI 3D 资产工厂。

Meshy 是为创作者打造的 AI 3D 模型生成器，旨在帮助游戏开发者、游戏工作室、3D 打印爱好者和 XR 创作者等用户，在几秒钟内创建 3D 模型和动画，支持文本 / 图像生成 3D、AI 纹理生成、文字生成贴图等功能。

△ Meshy web 端主页创新 10001、白日梦（Agent）

来自光魔科技。核心定位为文生视频一站式 AI 创作平台。

白日梦支持白日梦 4.0、白日梦 3.0 模型选择，Agent 模式可将 2000 字以内的中文文案自动转为最长 6 分钟、情节连贯的原创 IP 视频，新增局部重绘功能让角色、图片更加流畅细腻，支持静态绘本、动态漫画等多形态输出，具有角色 DNA 库、智能分镜引擎、多模态风格迁移、动态口型同步等功能。

△白日梦 web 端主页 02、Seko

来自商汤科技。核心定位为创编一体的 AI 短视频创作 Agent。

Seko 集成主流多模态生成大模型，用户通过自然语言对话即可自动完成从剧本创作、美术风格定位、配音配乐、分镜图绘制的 AI 短片全流程，支持角色一致性控制、智能模型选择等功能，无需复杂的操作技巧实现大模型全流程代理。

△ Seko web 端主页 03、Vidu

来自生数科技。核心定位为全球领先的 AI 内容生产平台。

Vidu 核心功能包括参考生视频、文生视频、图生视频，提供 4s 和 8s 两种时长选择，分辨率最高达 1080P，最快 10s 生成视频。可生成高质量的动态视频、2D 动画和多样化艺术风格内容，错峰模式支持闲时不卡积分和条数的不限量生成。

△ Vidu web 端主页 04、拍我 AI

来自爱诗科技。核心定位是AI 视频生成平台。

拍我 AI 基于自研 PixVerse V5 模型，提供文生视频、图生视频及多特效模板功能，支持多关键帧生成与首尾帧生成动态转场，具备「自定义运镜能力」，内置创意模板库并开放企业级 API 接口。

△拍我 AI web 端主页 05、Hyper 3D

来自影眸科技。核心定位为高精度 AI 3D 工厂。

Hyper3D 基于自研 Rodin Gen2 V1.8 模型，集成 3D ControlNet、LoRA 风格模块，支持在几十秒内将 2D 图像和文本生成高质量 3D 模型并直接接入主流 3D 软件，主打「专业可用 + 极速迭代」，定位 3D 内容创作者的「Copilot」，支持高质量渲染、个性化定制和多格式兼容。

△ Hyper 3D web 端主页 06、磁力开创

来自快手。核心定位为AI 创意生产平台。

磁力开创集成 Wow 智能体（数字人定制创作）、Kwali 智能体（一句话生成短视频）及 DeepSeek（脚本生成）三大核心能力，提供王牌写手、全能数字人、商品营销官等专项工具，实现从脚本创作到数字人视频生成的全链路营销内容生产。

△磁力开创 web 端主页 07、造点

来自阿里巴巴。核心定位为多模态视频图像创作平台。

造点集成 Midjourney V7 与通义万相 Wan2.5 模型，支持图像与视频生成的一站式创作，具备音视频同步生成、图生视频无缝衔接及参数简化功能，提供特征词库与移动端对话式编辑，「美学控制」功能设计滑块，特征词库支持「120 多个视角光线构图提示词」。

△造点 web 端主页 08、万兴天幕

来自万兴科技。核心定位为一站式 AIGC 创作平台。

万兴天幕支持文生视频、图生视频、视频续写等功能，可实现不同风格、丰富场景及主题的连贯性，在图片生成层面具备文生图、局部重绘、参考图生图等功能，在音频生成层面支持文生音乐、文生音效、文生语音、视频智能配乐等功能。

△万兴天幕 web 端主页 09、Medeo

来自一生智能。核心定位为一句话出片的端到端 AI 视频工作室。

Medeo 通过 Agent 一站式处理脚本、分镜、素材匹配、配音、字幕、音乐等视频全流程，用户仅需输入文字或粘贴链接即可在 10 分钟内拿到可编辑、可交付的专业短片。

△ Medeo web 端主页 10、MOKI

来自美图。核心定位为AI 视频短片创作工具。

MOKI 基于自研奇想大模型，支持从脚本生成、分镜绘制到视频合成的全流程创作。可生成完整分镜脚本并自定义视觉风格，支持「角色定制」与「分镜画面实时修改」，具备智能剪辑、AI 配乐及自动字幕功能，有效简化动画短片、网文短剧等内容的视频制作流程。

△ MOKI web 端主页 11、SEELE

来自全灵科技。核心定位是端到端多模态 3D 游戏生成平台。

SEELE 支持零代码一句话生成 3D 游戏，具有角色控制、场景构建、自主协调交互行为、物理效果及剧情设计等功能，支持无限对话式重制编辑和内容播放，能够生成跑酷、赛车、教育模拟等多种游戏类型，实现从创意到成品的全流程自动化开发。

△ SEELE web 端主页 12、FilmAction

来自瀚皓科技。核心定位是一站式电影生成平台。

FilmAction 基于自研 FANTASY2.0 模型，整合影像工作流，支持最高 16K 视频生成与角色场景一致性控制，提供从剧本创作、角色生成、分镜设计、旁白配音配乐到视频合成等全流程一站式自动化制作，缩短制作周期，适用于电影制作、教育培训及广告创意等多种场景。

△ FilmAction web 端主页 13、美册

来自优频科技。核心定位是AI 视频生成工具。

美册具有视频抠像、3D 模型制作、「手绘视频」及智能字幕等功能，集成特效模板与音乐相册制作，支持多种比例输出与 3D 环绕音效，适用于短视频制作、电子相册及创意特效等场景。

△美册 app 端介绍页 14、Video Ocean

来自潞晨科技，核心定位为AI agent 视频创作平台。

Video Ocean 接入 GPT-5，通过视频智能体实现对话式脚本策划、视觉合成到配音字幕的全流程自动化，完成支持多语言背景音乐与实时字幕嵌入，几分钟可生成视频。

△ Video Ocean web 端主页 15、影伙引擎

来自小影科技。核心定位为AI 出海商业内容解决方案专家。

影伙引擎集成跨平台音视频编辑引擎、端侧多模态 AI 引擎及 AIGC 生成引擎，提供智慧视频创作、AI 短剧制作与 AI 营销视频三大服务，支持 4K/8K 编辑、多模态数据处理与个性化内容生成，覆盖影视创作、跨境电商及短剧出海等场景。

△影伙引擎 web 端主页 16、Boolvideo

来自布尔向量。核心定位为一站式 AI 视频生成器。

Boolvideo 面向全球电商与内容营销场景，支持多种内容转视频，可将产品链接、博客文章、脚本、图片等多种内容形式转化为视频，如输入产品 URL 可直接生成产品宣传视频，支持 Shopify、Amazon、Etsy 等电商平台。

△ Boolvideo web 端主页

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题

宙世代

一起剪

相关标签