拆解有道“子曰4”全量开源：如何通过重构思维链打下落地成本？

近日，网易有道宣布 " 子曰 " 大模型迎来 4.0 版本的全方位升级。" 子曰 4" 正式迈入全模态时代，不仅全面支持文本、图片、音频的融合交互，有道更宣布将核心的 " 多模态模型 " 与 " 语音合成（TTS）模型 " 正式开源。与此同时，翻译模型也迎来了深度的技术重构，翻译质量与效率实现双重提升。多模态模型视觉与数理斩获 SOTA，纯文本数理难题性能行业领先据介绍，开源的 " 子曰 4" 多模态模型在 27B 参数规模上，面向教育场景，将支持视觉输入的数理能力拉到了行业顶尖水平（SOTA）。在同等参数规模的模型中，" 子曰 4" 在处理带图表的数学题、物理题等高难度视觉数理问题上表现惊艳。中文纯文本数理难题的性能也获得显著提升，模型准确率达 81.4%，达到行业领先水平。

子曰 4 在多个视觉数理基准上达到同规模模型中最佳水平

图片来源： https://huggingface.co/netease-youdao/Confucius4

更为关键的突破在于实际落地的 " 性价比 "。相关负责人介绍，新模型采用了精细化思维链重构方案，通过汇聚大规模优质精简的推理样本进行深度优化，成功将推理思维链输出长度压缩了 43.2%。这意味着它可以用更少的 Token、更短的推理路径更快地给出答案，为企业和开发者大幅降低了实际业务场景中的推理成本。

子曰 4 在多个视觉数理基准上大幅降低了输出 token 的数量

此外，子曰研发团队针对国内学生真实的作业 p、考试和提问场景进行了深度优化，让它能够真正解决中国学生在实际学习中遇到的真实问题，成为更有温度的数字化助手成为更有温度的数字化助手。

开源 TTS：支持 14 种语言，3 秒克隆原声，跨语种不再有口音

此次与多模态模型一同开源的还有语音合成（TTS）引擎，该引擎基于前沿的 " 语音编码器 + LLM" 架构打造，面向开发者及内容创作者提供零样本、低门槛的语音克隆与情感合成能力。

目前，它已全面支持中文、英语、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语及越南语共 14 种语言。

系统可支持不同语言间同一说话者音色的自然迁移，无需额外训练即可保持音色一致性，且合成结果具备母语级别的自然度与流畅度，跨语种克隆也没有口音泄露问题。

在声音克隆方面，子曰 4 实现了 " 上传即可克隆 " 的全量支持能力，用户仅需提供任意音频素材，系统即可在三秒内完成原声复制。

据介绍，该引擎在克隆任务中的准确度超过 97%，克隆音色与原声的相似度达 85% 以上。在保留说话人独特音色的同时，还可精准还原其情感色彩，综合能力达到该领域第一梯队。此外，该开源模型在真实多语言场景中展现出较好的稳健性，可应对日常对话、新闻播报、企业宣传等不同语境及复杂情感表达等多种合成需求。

翻译模型质量全面升级，推理速度提升 80%

作为有道最为深厚的技术资产，翻译模型在本次升级中也迎来了重要的技术升级，使其在翻译任务中表现进一步提升。

在数据层面，子曰团队收集并清洗了上亿级别的多语言数据，并聘请具有专八认证的专业人员进行多维度人工评估，从源头保证语料的高品质。

在算法层面，模型采用了创新的 " 多专家 OPD " 模式，用一种更聪明的 " 软方式 " 博采众长，同时通过强化学习引入格式奖励和语言检测机制，有效解决了机翻常见的脱靶和语种混出问题。

为了应对高频、高并发的产业级应用，升级后的翻译模型配备了高效的加速机制，使得整体推理速度直接飙升 80%。配合大模型自动评测与人工随机抽检相结合的定制化方案，新一代翻译模型在文本、图片和文档翻译等多场景下，都展现出了兼具速度与质量的极高水准。

回望有道在 AI 领域的探索历程，从最初子曰以首个教育垂直大模型姿态亮相、推出颠覆传统口语练习模式的 " 虚拟人口语教练 Hi Echo"，到 " 子曰 "2.0、3.0 版本在软硬件生态中的全面扎根，有道始终走在 AI 赋能场景的最前沿。2026 年，有道更是按下了应用落地的加

速键，陆续发布了 LobsterAI、有道宝库、有道同传 Agent、Thinkflow 等一系列 AI Agent 产品，实现了全场景 AI Agent 矩阵的前瞻性布局。" 子曰 4" 的升级与核心模型全量开源，不仅大幅降低了开发者在多模态与语音合成领域的应用门槛，也向行业展示了以底层核心技术滋养上层 Agent 矩阵的生态闭环。有道希望，随着全球开发者与开源社区的共同注入，这一套全模态大模型生态将在更广泛的产业中激发出真正的生产力变革。（雷峰网雷峰网雷峰网）

宙世代

一起剪

相关标签