日韩成人黄片电影|日本高清无码免费一区|久久草在线免费青青青av|91人人草人人操人人爽|亚洲AV成人Av|多人轮奸视频播放免费成人|91性生活电影日韩在线妻|国内日本欧美在线|日韩欧美图片区偷窥自拍|一区毛片电影无码成人国产

當(dāng)前位置:100EC>產(chǎn)業(yè)數(shù)字化>美團(tuán)發(fā)布高效推理模型LongCat-Flash-Thinking聚焦高復(fù)雜度任務(wù)
美團(tuán)發(fā)布高效推理模型LongCat-Flash-Thinking聚焦高復(fù)雜度任務(wù)
網(wǎng)經(jīng)社發(fā)布時間:2025年09月22日 15:48:05

(網(wǎng)經(jīng)社訊)9月22日,美團(tuán)高效推理模型 LongCat-Flash-Thinking正式發(fā)布。新模型除保持龍貓模型一貫“快”的特點(diǎn)同時,在邏輯、數(shù)學(xué)、代碼、智能體等多個領(lǐng)域的推理任務(wù)中,也達(dá)到了全球開源模型的最先進(jìn)水平(SOTA),部分任務(wù)性能接近閉源模型GPT5-Thinking。

據(jù)網(wǎng)經(jīng)社產(chǎn)業(yè)電商臺(B2B.100EC.CN)了解,LongCat-Flash-Thinking增強(qiáng)了智能體自主調(diào)用工具的能力,并擴(kuò)展了形式化定理證明能力,成為國內(nèi)首個同時具備“深度思考+工具調(diào)用”與“非形式化+形式化”推理能力相結(jié)合的大語言模型。該團(tuán)隊(duì)還表示,尤其在高復(fù)雜度的任務(wù)(如數(shù)學(xué)、代碼、智能體任務(wù))處理上,新模型具備顯著優(yōu)勢。

目前, LongCat-Flash-Thinking已在HuggingFace、Github全面開源,并在官網(wǎng)可體驗(yàn)。

新模型又快又省 AIME25使用工具Token消耗較其他模型省64.5%

據(jù)了解,新模型主要通過創(chuàng)新架構(gòu)等方式實(shí)現(xiàn)了高效推理與穩(wěn)定訓(xùn)練的結(jié)果。具體來看:

為了解決強(qiáng)化學(xué)習(xí)領(lǐng)域混合訓(xùn)練的穩(wěn)定性問題,美團(tuán)LongCat團(tuán)隊(duì)設(shè)計(jì)了一種領(lǐng)域并行方案,將STEM、代碼和智能體任務(wù)的優(yōu)化過程解耦。這一方法采用了多領(lǐng)域并行訓(xùn)練再融合的先進(jìn)策略,實(shí)現(xiàn)模型能力的均衡提升,綜合性能達(dá)到帕累托最優(yōu)(Pareto-optimal)。

image.png

圖1:LongCat-Flash-Thinking 的訓(xùn)練流程(資料圖)

新模型訓(xùn)練的基石是異步彈性共卡系統(tǒng)(Dynamic Orchestration for Asynchronous Rollout)。該系統(tǒng)通過彈性共卡調(diào)度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設(shè)計(jì),在實(shí)現(xiàn)相較于同步RL訓(xùn)練框架三倍提速的同時,確保了每條樣本的策略一致性。同時,系統(tǒng)進(jìn)一步實(shí)現(xiàn)了高效的 KV 緩存復(fù)用,能夠支撐萬卡規(guī)模集群的穩(wěn)定運(yùn)行。值得一提的是,在大規(guī)模異步強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練階段,F(xiàn)LOPs(Floating Point Operations)的投入約為預(yù)訓(xùn)練階段的20%,為模型性能提升提供了堅(jiān)實(shí)的算力保障。

此外,美團(tuán)LongCat團(tuán)隊(duì)設(shè)計(jì)了全新的“雙路徑推理框架”以提升模型的智能體能力。

該框架能夠自主篩選最優(yōu)查詢樣本,并通過自動化流程將智能體推理與工具使用相結(jié)合,使模型能夠智能識別并調(diào)用外部工具(如代碼執(zhí)行器、API等),從而高效解決復(fù)雜任務(wù)?;贏IME25實(shí)測數(shù)據(jù),LongCat-Flash-Thinking在該框架下展現(xiàn)出更高效的智能體工具調(diào)用(Agentic Tool Use)能力,在確保90%準(zhǔn)確率的前提下,相較于不使用工具調(diào)用節(jié)省了64.5%的Tokens(從19653到6965),顯著優(yōu)化了推理過程的資源利用率。

為了克服當(dāng)前開源通用大型語言模型在形式化證明任務(wù)中的不足,團(tuán)隊(duì)還針對形式化推理設(shè)計(jì)了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法。該流程利用集成了 Lean4 服務(wù)器的專家迭代框架,生成經(jīng)過嚴(yán)格驗(yàn)證的證明過程,從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強(qiáng)了模型的形式化推理能力,提高了其在學(xué)術(shù)和工程應(yīng)用中的可靠性。

專注高復(fù)雜度任務(wù) “快”模型刷新多項(xiàng)權(quán)威評測紀(jì)錄

值得關(guān)注的是,LongCat-Flash-Chat于本月1日開源,一經(jīng)發(fā)布就因“快”的體驗(yàn)引發(fā)了市場廣泛關(guān)注和討論,不少業(yè)內(nèi)人士稱其為“最快的大參數(shù)模型”。

LongCat-Flash-Thinking繼承了“快”的特點(diǎn),并在邏輯、數(shù)學(xué)、代碼、智能體等領(lǐng)域的多項(xiàng)權(quán)威評測中刷新紀(jì)錄,展現(xiàn)出“理科學(xué)霸”的新特點(diǎn):

image.png

圖2:LongCat-Flash-Thinking在推理基準(zhǔn)測試上的平均性能比較(資料圖)

通用推理能力:模型在需要結(jié)構(gòu)化邏輯的任務(wù)中表現(xiàn)突出,ARC-AGI基準(zhǔn)測試中以50.3分超過OpenAI o3、Gemini-2.5 Pro等閉源模型,表現(xiàn)出優(yōu)異的通用推理能力。

數(shù)學(xué)能力:在數(shù)學(xué)推理方面,也已躋身當(dāng)前頂尖模型行列,并且在更具挑戰(zhàn)性的基準(zhǔn)測試中優(yōu)勢更加明顯——在HMMT和AIME相關(guān)基準(zhǔn)上取得突破性成績,超越OpenAI o3 ,這也證明了新模型解決復(fù)雜、多步驟問題的水平。

代碼能力:編程領(lǐng)域,LongCat-Flash-Thinking展現(xiàn)出開源模型最先進(jìn)的性能(SOTA)與綜合實(shí)力。在LiveCodeBench上以 79.4 分顯著超越其他參與評估的開源模型,并與閉源模型GPT-5表現(xiàn)相當(dāng),證明其解決高難度編程競賽問題的優(yōu)秀能力。在OJBench基準(zhǔn)測試中也以40.7的得分保持競爭力,接近Gemini-2.5 Pro的水平。

智能體能力:LongCat-Flash-Thinking 在復(fù)雜的、工具增強(qiáng)型推理(tool-augmented reasoning)方面表現(xiàn)同樣突出,并在智能體工具調(diào)用(agentic tool using)上有不錯表現(xiàn)。其在 τ2-Bench-Airline 上以 67.5分 刷新開源SOTA成績,并在包括SWE-Bench、BFCL V3和VitaBench等基準(zhǔn)測試中排名居前。

ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基準(zhǔn)中的pass@1 獲得67.6的高分,領(lǐng)先所有其他參與評估的模型,在pass@8和pass@32中同樣保持了領(lǐng)先優(yōu)勢。新模型在生成結(jié)構(gòu)化證明和形式化數(shù)學(xué)推理方面具有優(yōu)勢。

浙江網(wǎng)經(jīng)社信息科技公司擁有18年歷史,作為中國領(lǐng)先的數(shù)字經(jīng)濟(jì)新媒體、服務(wù)商,提供“媒體+智庫”、“會員+孵化”服務(wù);(1)面向電商平臺、頭部服務(wù)商等PR條線提供媒體傳播服務(wù);(2)面向各類企事業(yè)單位、政府部門、培訓(xùn)機(jī)構(gòu)、電商平臺等提供智庫服務(wù);(3)面向各類電商渠道方、品牌方、商家、供應(yīng)鏈公司等提供“千電萬商”生態(tài)圈服務(wù);(4)面向各類初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務(wù)。

網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫(DATA.100EC.CN,免費(fèi)注冊體驗(yàn)全庫)基于電商行業(yè)18年沉淀,包含100+上市公司、新三板公司數(shù)據(jù),150+獨(dú)角獸、200+千里馬公司數(shù)據(jù),4000+起投融資數(shù)據(jù)以及10萬+互聯(lián)網(wǎng)APP數(shù)據(jù),全面覆蓋“頭部+腰部+長尾”電商,旨在通過數(shù)據(jù)可視化形式幫助了解電商行業(yè),挖掘行業(yè)市場潛力,助力企業(yè)決策,做電商人研究、決策的“好參謀”。

【版權(quán)聲明】秉承互聯(lián)網(wǎng)開放、包容的精神,網(wǎng)經(jīng)社歡迎各方(自)媒體、機(jī)構(gòu)轉(zhuǎn)載、引用我們原創(chuàng)內(nèi)容,但要嚴(yán)格注明來源網(wǎng)經(jīng)社;同時,我們倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請將版權(quán)疑問、授權(quán)證明、版權(quán)證明、聯(lián)系方式等,發(fā)郵件至NEWS@netsun.com,我們將第一時間核實(shí)、處理。

        平臺名稱
        平臺回復(fù)率
        回復(fù)時效性
        用戶滿意度
          微信公眾號
          微信二維碼 打開微信“掃一掃”
          微信小程序
          小程序二維碼 打開微信“掃一掃”