阿里通义实验室智能计算团队推出新算法FIPO

钛媒体快报 20小时前

钛媒体 App 4 月 7 日消息，阿里通义实验室智能计算团队宣布推出新算法 FIPO（Future-KL Influenced Policy Optimization），引入 Future-KL 机制，奖励关键 Token，解决纯强化学习（Pure RL）训练中 " 推理长度停滞 " 难题。据该团队介绍，在 32B 规模的纯 RL 设定下，率先实现对 o1-mini 与同规模 DeepSeek-Zero-MATH 的性能反超。（广角观察）

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代

一起剪

相关标签