(網(wǎng)經(jīng)社訊)10月14日,螞蟻集團(tuán)正式推出并開源了其萬億參數(shù)思考模型Ring-1T,包括模型權(quán)重與訓(xùn)練配方。該模型是在2025年9月30日開源的預(yù)覽版Ring-1T-preview基礎(chǔ)上進(jìn)一步優(yōu)化的成果,通過擴展大規(guī)??沈炞C獎勵強化學(xué)習(xí)(RLVR)訓(xùn)練增強了自然語言推理能力,并結(jié)合人類反饋強化學(xué)習(xí)(RLHF)提升了模型的通用性能,使其在多任務(wù)評估中表現(xiàn)更為均衡。
據(jù)網(wǎng)經(jīng)社產(chǎn)業(yè)電商臺(B2B.100EC.CN)獲悉,Ring-1T基于Ling 2.0架構(gòu),總參數(shù)量達(dá)到1萬億,激活參數(shù)為500億,支持128K上下文長度。在技術(shù)實現(xiàn)上,螞蟻采用了自研的“棒冰(icepop)”算法以控制訓(xùn)練和推理階段的精度差異,保障了長序列訓(xùn)練的穩(wěn)定性;同時,其高性能強化學(xué)習(xí)系統(tǒng)ASystem優(yōu)化了顯存管理和權(quán)重交換,實現(xiàn)了大規(guī)模強化學(xué)習(xí)的日?;€(wěn)定訓(xùn)練。
在多項權(quán)威測試中,Ring-1T展現(xiàn)出領(lǐng)先水平。例如,在國際數(shù)學(xué)奧林匹克競賽(IMO2025)的解題測試中,該模型一次解出第1、3、4、5題,達(dá)到銀牌水平,成為首個能達(dá)到國際奧數(shù)獎項級別的開源系統(tǒng)。在人類偏好對齊測試Arena-Hard V2中,它以81.59%的成功率位居開源模型榜首,成績接近GPT-5-Thinking(High)的82.91%。在醫(yī)療問答基準(zhǔn)HealthBench中,Ring-1T也取得了開源模型中的最高分。
目前,Ring-1T已在Hugging Face、魔搭社區(qū)等平臺開源,用戶可下載模型或通過螞蟻百寶箱進(jìn)行在線體驗。至此,螞蟻百靈大模型已發(fā)布18款模型,參數(shù)范圍從160億到1萬億,形成了包括通用語言模型Ling-1T和思考模型Ring-1T在內(nèi)的產(chǎn)品矩陣,標(biāo)志著其大模型進(jìn)入2.0階段。


































