量子位 2025-12-31
端侧翻译新标杆:腾讯混元1.5开源,1.8B模型离线运行,效果超主流商用API
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在语言模型的比拼中,机器翻译一直被视为检验机器理解复杂语义和跨文化对齐能力的 " 试金石 "。

面向端侧场景,12 月 30 日,腾讯混元宣布推出并开源翻译模型 1.5,经过量化,可支持端侧直接部署和离线实时翻译,仅需 1GB 内存即可流畅运行,并且在参数量极小的前提下,效果超过了大部分商用翻译 API。

在常用的中外互译和英外互译测试集 Flores200、WMT25 以及民汉语言的测试集中,Tencent-HY-MT1.5-1.8B 全面超越中等尺寸开源模型和主流商用翻译 API,达到 Gemini-3.0-Pro 这种超大尺寸闭源模型的 90 分位水平。在 WMT25 和民汉翻译测试集上,其效果仅略微差于 Gemini-3.0-Pro,远超其他模型。

模型在效率和性价比也表现突出,与主流商用翻译模型 API 对比,HY-MT1.5-1.8B 推理速度更快,处理 50 个 tokens 的平均耗时只有 0.18 秒,其他模型的时间在 0.4 秒左右,显示出明显的速度优势,凭借优化的模型设计和推理逻辑,其领先的效率使其高度适用于即时通讯、智能客服、移动翻译应用等高吞吐、实时翻译场景。

在大模型厂商纷纷角逐手机等端侧场景的当下,混元翻译模型从大变小,效果却没有减弱,从技术上,做了哪些优化?

集体智慧的 " 提纯 " 过程

此前,腾讯混元的 Hunyuan-7B(MT)在 WMT25(世界机器翻译竞赛 2025)夺得了大赛设置的 31 个语言对赛道中的 30 项冠军,体现出强大的翻译能力,当时最核心的技术就是 Shy(Synergy-enhanced policy optimization)框架。

当时混元翻译模型面临一个核心挑战是:单一模型的监督信号是有偏的。为了打破这一限制,他们并没有单纯增加训练数据,而是采用了集成知识蒸馏(Ensemble Knowledge Distillation)来进行协同增强的训练。

让 Hunyuan-7B 作为一个 " 观察者 ",去吸收多个前沿的开源模型的翻译策略。通过动态权重分配(Dynamic weighting scheme)机制,模型学会了在面对不同语境时,如何内化不同专家的长处,实现了一种集体智慧的提纯。

同时,混元翻译模型也首次在翻译任务中大规模落地了 GRPO(群体相对策略优化)算法。混元团队意识到,单纯依赖 BLEU 或 COMET 这种静态指标容易导致模型 " 刷分 " 而失去灵性。

因此,他们构建了复合奖励函数,引入了 DeepSeek-V3 评估流畅度和 XCOMET 对齐人类偏好,并在训练中保持多个策略组的竞争和演化,让模型真正学会在复杂的翻译策略中寻找完整性和流畅性的最优平衡点。

HY-MT1.5 的进化:1.8B 的极致效能的探索

这次开源的 1.5 版本,核心重心在于如何让小尺寸模型爆发大能量。

从被动接受到主动修正:On-PolicyDistillation

在开发 1.8B 模型时,团队发现简单的 SFT 很快会让模型进入学习瓶颈。受近期学术界引人关注的 On-PolicyDistillation(在线蒸馏)方案的启发,让 HY-MT1.5-7B 作为 Teacher,通过 per-token reverse KL loss 实时引导 1.8B 的 Student 模型。

这种方式能让学生避免死记硬背标准答案,通过纠正在预测序列分布时的偏移,让学生模型从错误中学习,从而切实提升其能力。结果也的确印证这些思考,1.8B 版本的翻译质量在多个维度上追平了 7B 模型,而推理耗时压低到了惊人的 0.18s。

更像人的评价体系:Rubrics-basedReward

在 1.5 版本的强化学习阶段,相较于 MT 1.0 版本评价模型仅仅通过多指标加权给出一个评分,团队想更进一步,能不能让模型明确自己到底错在哪?

于是把之前的复合奖励函数升级为 Rubrics(评价量规)方案,驱使 LLM 扮演一个细心的裁判,从漏译、错译、流畅度等细分维度进行结构化打分。这种更细颗粒度的奖励信号,让 GRPO 驱动模型进行 " 精准 " 的自我迭代,显著优化了模型在语种混杂等细分场景下的表现。

工程化补全:术语干预、上下文感知与格式保留

除了模型内核,腾讯混元也关注实际应用场景中的 " 痛点 "。

首先是术语,腾讯混元翻译模型 1.5 具备强大的术语库自定义能力,用户可针对不同行业与专业场景(如医学、法律、金融、科技等)提前构建专属术语对照表,确保关键术语在翻译中保持高度一致与准确性。

这一功能有效弥补了小尺寸模型在处理专业领域文本时的词汇短板,使其在保障轻量化部署的同时,也能胜任高要求的行业翻译任务。用户可通过简单配置导入术语库,模型将在翻译过程中优先采纳用户定义的标准术语,从而提升专业文档、技术手册、合同文本等内容翻译的可靠性与权威性。

其次是上下文翻译。混元翻译模型模型具备先进的长文本与对话上下文理解能力,可基于前文语境持续优化后续翻译结果,显著提升长对话、多轮问答、连续段落等场景下的翻译连贯性与一致性。

无论是会议记录、访谈内容、小说章节还是技术文档的长篇翻译,模型均能有效捕捉并保持上下文逻辑关系,避免出现指代不清、语义断裂或风格不统一的问题。该能力尤其适用于实时对话翻译、长篇文献翻译及多轮交互场景,助力用户在跨语言沟通与内容处理中获得更自然、准确的翻译体验。

第三是,带格式翻译能力,通过精准的指令遵循能力,混元翻译模型得以保持翻译前后的格式信息不变,让翻译结果更加准确实用。

【模型体验链接】

混元官网:

https://hunyuan.tencent.com/modelSquare/home/list

github 链接:

GitHub-Tencent-Hunyuan/HY-MT

huggingface 链接:

https://huggingface.co/collections/tencent/hy-mt15

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 翻译 效果 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论