新闻资讯

封面新闻记者 张越熙万博全站APP官网登录
10月14日凌晨,蚂蚁集团谨慎推出万亿参数念念考模子Ring-1T,并全面开源模子权重、查考配方。Ring-1T在9月30日开源的预览版Ring-1T-preview基础上,握续扩张大限制可考据奖励强化学习(RLVR)查考,进一步引发万亿基座的当然话语推理武艺,并通过 RLHF 查考完善模子通用武艺。
据悉,这次百灵团队挑战了难度更高的IMO2025(国外数学奥利匹克)赛题,将Ring-1T接入多智能体框架AWorld,使用纯当然话语推理进行解题。履行遵守炫夸,Ring-1T仅用一次解出了第1、3、4、5题,相当于IMO银牌水平,成为首个能拿IMO国外奥数奖的开源系统。Ring-1T在第三次尝试IMO时对第2题几何解说也给出了接近满分的解说历程,在顶流大模子果真扫地外出的第六题中将谜底拘谨到与Gemini 2.5 Pro 酌量的“4048”(正确谜底为2112)。看成一款念念考模子,Ring-1T也弘扬出了极佳的通用武艺,在“东说念主类偏好对王人”测试Arena-Hard V2中,Ring-1T以81.59的收遵守居于开源模子榜首,面对GPT-5-Thinking(High)82.91的收货。
万亿参数念念考模子查考最浩劫题是训推精度相反,即查考阶段与推理阶段因结束细节相反导致的查考和推理精度不一致,进而导致查考崩溃。在Ring-1T模子中,蚂蚁继承了自研的“棒冰(icepop)”算法来应付这项行业清苦,即用带掩码的双向截断技艺把查考-推理散播相反冻结在低水位,确保长序列、长周期查考不崩。此外,应付万亿参数模子强化学习查考,蚂蚁还自研了高性能强化学习系统ASystem(其中包含已开源的高性能强化学习框架AReaL),颠倒针对万亿参数模子的显存处理和训推权重交换问题作念了综合的优化,结束了单机显存碎屑秒级回收、权重零冗余交换,把大限制RL查考褂讪跑成平淡。

图左:GRPO训推相反跟着查考成指数高涨,icepop较为肃肃;图右:训推相反最大值,GRPO跟着查考高涨绝顶判辨,icepop守护在较低水位
此外,本次发布的Ring-1T模子链接继承Ling 2.0架构的1T base模子作念后查考,Ling 2.0继承了包括高度疏淡的MoE架构,1/32的群众激活比、FP8羼杂精度、MTP等诸多特点结束高效查考与推理。在后查考阶段,蚂蚁百灵团队通过LongCoT-SFT + RLVR + RLHF多阶段查考,权臣提高了模子的复杂推理武艺以及教唆随从和创意写稿等通用武艺。
据百灵团队知道万博全站APP官网登录,Ring-1T模子是其在万亿念念考模子上的初次尝试,团队会在后续的版块中链接完善模子性能。
Powered by 万博全站APP官网登录 @2013-2022 RSS地图 HTML地图