婷婷五月去人妻成人伊人网,国产视频www亚洲色日本

當(dāng)前位置：100EC>產(chǎn)業(yè)數(shù)字化>美團(tuán)發(fā)布高效推理模型LongCat-Flash-Thinking聚焦高復(fù)雜度任務(wù)

美團(tuán)發(fā)布高效推理模型LongCat-Flash-Thinking聚焦高復(fù)雜度任務(wù)

作者：來(lái)源：網(wǎng)經(jīng)社發(fā)布時(shí)間：2025年09月22日 15:48:05

(網(wǎng)經(jīng)社訊)9月22日，美團(tuán)高效推理模型 LongCat-Flash-Thinking正式發(fā)布。新模型除保持龍貓模型一貫“快”的特點(diǎn)同時(shí)，在邏輯、數(shù)學(xué)、代碼、智能體等多個(gè)領(lǐng)域的推理任務(wù)中，也達(dá)到了全球開(kāi)源模型的最先進(jìn)水平（SOTA），部分任務(wù)性能接近閉源模型GPT5-Thinking。

據(jù)網(wǎng)經(jīng)社產(chǎn)業(yè)電商臺(tái)（B2B.100EC.CN）了解，LongCat-Flash-Thinking增強(qiáng)了智能體自主調(diào)用工具的能力，并擴(kuò)展了形式化定理證明能力，成為國(guó)內(nèi)首個(gè)同時(shí)具備“深度思考+工具調(diào)用”與“非形式化+形式化”推理能力相結(jié)合的大語(yǔ)言模型。該團(tuán)隊(duì)還表示，尤其在高復(fù)雜度的任務(wù)（如數(shù)學(xué)、代碼、智能體任務(wù)）處理上，新模型具備顯著優(yōu)勢(shì)。

目前， LongCat-Flash-Thinking已在HuggingFace、Github全面開(kāi)源，并在官網(wǎng)可體驗(yàn)。

新模型又快又省 AIME25使用工具Token消耗較其他模型省64.5%

據(jù)了解，新模型主要通過(guò)創(chuàng)新架構(gòu)等方式實(shí)現(xiàn)了高效推理與穩(wěn)定訓(xùn)練的結(jié)果。具體來(lái)看：

為了解決強(qiáng)化學(xué)習(xí)領(lǐng)域混合訓(xùn)練的穩(wěn)定性問(wèn)題，美團(tuán)LongCat團(tuán)隊(duì)設(shè)計(jì)了一種領(lǐng)域并行方案，將STEM、代碼和智能體任務(wù)的優(yōu)化過(guò)程解耦。這一方法采用了多領(lǐng)域并行訓(xùn)練再融合的先進(jìn)策略，實(shí)現(xiàn)模型能力的均衡提升，綜合性能達(dá)到帕累托最優(yōu)（Pareto-optimal）。

圖1：LongCat-Flash-Thinking 的訓(xùn)練流程（資料圖）

新模型訓(xùn)練的基石是異步彈性共卡系統(tǒng)（Dynamic Orchestration for Asynchronous Rollout）。該系統(tǒng)通過(guò)彈性共卡調(diào)度（Elastic Colocation）與多版本異步流水線（Multi-Version Asynchronous Pipeline）設(shè)計(jì)，在實(shí)現(xiàn)相較于同步RL訓(xùn)練框架三倍提速的同時(shí)，確保了每條樣本的策略一致性。同時(shí)，系統(tǒng)進(jìn)一步實(shí)現(xiàn)了高效的 KV 緩存復(fù)用，能夠支撐萬(wàn)卡規(guī)模集群的穩(wěn)定運(yùn)行。值得一提的是，在大規(guī)模異步強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練階段，F(xiàn)LOPs（Floating Point Operations）的投入約為預(yù)訓(xùn)練階段的20%，為模型性能提升提供了堅(jiān)實(shí)的算力保障。

此外，美團(tuán)LongCat團(tuán)隊(duì)設(shè)計(jì)了全新的“雙路徑推理框架”以提升模型的智能體能力。

該框架能夠自主篩選最優(yōu)查詢(xún)樣本，并通過(guò)自動(dòng)化流程將智能體推理與工具使用相結(jié)合，使模型能夠智能識(shí)別并調(diào)用外部工具（如代碼執(zhí)行器、API等），從而高效解決復(fù)雜任務(wù)。基于AIME25實(shí)測(cè)數(shù)據(jù)，LongCat-Flash-Thinking在該框架下展現(xiàn)出更高效的智能體工具調(diào)用（Agentic Tool Use）能力，在確保90%準(zhǔn)確率的前提下，相較于不使用工具調(diào)用節(jié)省了64.5%的Tokens（從19653到6965），顯著優(yōu)化了推理過(guò)程的資源利用率。

為了克服當(dāng)前開(kāi)源通用大型語(yǔ)言模型在形式化證明任務(wù)中的不足，團(tuán)隊(duì)還針對(duì)形式化推理設(shè)計(jì)了一套全新的基于專(zhuān)家迭代框架的數(shù)據(jù)合成方法。該流程利用集成了 Lean4 服務(wù)器的專(zhuān)家迭代框架，生成經(jīng)過(guò)嚴(yán)格驗(yàn)證的證明過(guò)程，從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強(qiáng)了模型的形式化推理能力，提高了其在學(xué)術(shù)和工程應(yīng)用中的可靠性。

專(zhuān)注高復(fù)雜度任務(wù) “快”模型刷新多項(xiàng)權(quán)威評(píng)測(cè)紀(jì)錄

值得關(guān)注的是，LongCat-Flash-Chat于本月1日開(kāi)源，一經(jīng)發(fā)布就因“快”的體驗(yàn)引發(fā)了市場(chǎng)廣泛關(guān)注和討論，不少業(yè)內(nèi)人士稱(chēng)其為“最快的大參數(shù)模型”。

LongCat-Flash-Thinking繼承了“快”的特點(diǎn)，并在邏輯、數(shù)學(xué)、代碼、智能體等領(lǐng)域的多項(xiàng)權(quán)威評(píng)測(cè)中刷新紀(jì)錄，展現(xiàn)出“理科學(xué)霸”的新特點(diǎn)：

圖2：LongCat-Flash-Thinking在推理基準(zhǔn)測(cè)試上的平均性能比較（資料圖）

通用推理能力：模型在需要結(jié)構(gòu)化邏輯的任務(wù)中表現(xiàn)突出，ARC-AGI基準(zhǔn)測(cè)試中以50.3分超過(guò)OpenAI o3、Gemini-2.5 Pro等閉源模型，表現(xiàn)出優(yōu)異的通用推理能力。

數(shù)學(xué)能力：在數(shù)學(xué)推理方面，也已躋身當(dāng)前頂尖模型行列，并且在更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中優(yōu)勢(shì)更加明顯——在HMMT和AIME相關(guān)基準(zhǔn)上取得突破性成績(jī)，超越OpenAI o3 ，這也證明了新模型解決復(fù)雜、多步驟問(wèn)題的水平。

代碼能力：在編程領(lǐng)域，LongCat-Flash-Thinking展現(xiàn)出開(kāi)源模型最先進(jìn)的性能（SOTA）與綜合實(shí)力。在LiveCodeBench上以 79.4 分顯著超越其他參與評(píng)估的開(kāi)源模型，并與閉源模型GPT-5表現(xiàn)相當(dāng)，證明其解決高難度編程競(jìng)賽問(wèn)題的優(yōu)秀能力。在OJBench基準(zhǔn)測(cè)試中也以40.7的得分保持競(jìng)爭(zhēng)力，接近Gemini-2.5 Pro的水平。

智能體能力：LongCat-Flash-Thinking 在復(fù)雜的、工具增強(qiáng)型推理（tool-augmented reasoning）方面表現(xiàn)同樣突出，并在智能體工具調(diào)用（agentic tool using）上有不錯(cuò)表現(xiàn)。其在 τ2-Bench-Airline 上以 67.5分刷新開(kāi)源SOTA成績(jī)，并在包括SWE-Bench、BFCL V3和VitaBench等基準(zhǔn)測(cè)試中排名居前。

ATP形式推理能力：LongCat-Flash-Thinking在MiniF2F-test基準(zhǔn)中的pass@1 獲得67.6的高分，領(lǐng)先所有其他參與評(píng)估的模型，在pass@8和pass@32中同樣保持了領(lǐng)先優(yōu)勢(shì)。新模型在生成結(jié)構(gòu)化證明和形式化數(shù)學(xué)推理方面具有優(yōu)勢(shì)。

浙江網(wǎng)經(jīng)社信息科技公司擁有18年歷史，作為中國(guó)領(lǐng)先的數(shù)字經(jīng)濟(jì)新媒體、服務(wù)商，提供“媒體+智庫(kù)”、“會(huì)員+孵化”服務(wù)；（1）面向電商平臺(tái)、頭部服務(wù)商等PR條線提供媒體傳播服務(wù)；（2）面向各類(lèi)企事業(yè)單位、政府部門(mén)、培訓(xùn)機(jī)構(gòu)、電商平臺(tái)等提供智庫(kù)服務(wù)；（3）面向各類(lèi)電商渠道方、品牌方、商家、供應(yīng)鏈公司等提供“千電萬(wàn)商”生態(tài)圈服務(wù)；（4）面向各類(lèi)初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務(wù)。

網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫(kù)（DATA.100EC.CN，免費(fèi)注冊(cè)體驗(yàn)全庫(kù)）基于電商行業(yè)18年沉淀，包含100+上市公司、新三板公司數(shù)據(jù)，150+獨(dú)角獸、200+千里馬公司數(shù)據(jù)，4000+起投融資數(shù)據(jù)以及10萬(wàn)+互聯(lián)網(wǎng)APP數(shù)據(jù)，全面覆蓋“頭部+腰部+長(zhǎng)尾”電商，旨在通過(guò)數(shù)據(jù)可視化形式幫助了解電商行業(yè)，挖掘行業(yè)市場(chǎng)潛力，助力企業(yè)決策，做電商人研究、決策的“好參謀”。

【關(guān)鍵詞】美團(tuán)美團(tuán)大模型LongCat-Flash-Thinking原創(chuàng)

【相關(guān)閱讀】: “非遺 +”解鎖新春出游新玩法美團(tuán)旅行聯(lián)合多酒店、景區(qū)推出非遺活動(dòng)體驗(yàn); 美團(tuán)升級(jí)年夜飯預(yù)訂服務(wù)保障：付定金鎖餐位，商家違約雙倍賠; 縣域城市春節(jié)即時(shí)零售消費(fèi)火熱，阿勒泰、陽(yáng)朔等西部城市美團(tuán)平臺(tái)單量增長(zhǎng)數(shù)倍; 美團(tuán)升級(jí)“問(wèn)小團(tuán)”AI管家，為用戶(hù)制定吃喝玩樂(lè)指南并自動(dòng)領(lǐng)券; 美團(tuán)閃購(gòu)“1對(duì)1急送”升級(jí)：年貨更快送達(dá)，黑鉆會(huì)員可免費(fèi)用; 當(dāng)健康問(wèn)題“遇上”春節(jié) 美團(tuán)醫(yī)藥健康發(fā)起“春節(jié)不打烊”活動(dòng) 助力用戶(hù)健康過(guò)年

【投訴曝光】更多>

行業(yè)方案更多>: 《數(shù)字零售一站式解決方案》; 《私域電商一站式解決方案》; 《跨境電商一站式解決方案》; 《直播電商一站式解決方案》; 《服裝電商產(chǎn)業(yè)鏈賦能解決方案》; 《移動(dòng)出行影響力和產(chǎn)品體系》; 《數(shù)字教育影響力和產(chǎn)品體系》; 《物流科技影響力和產(chǎn)品體系》; 《互聯(lián)網(wǎng)監(jiān)管方面影響力》; 《數(shù)商興農(nóng)影響力和產(chǎn)品體系》; 《數(shù)字健康影響力和產(chǎn)品體系》; 《產(chǎn)業(yè)電商影響力和產(chǎn)品體系》; 《數(shù)智產(chǎn)教影響力和產(chǎn)品體系》

【原創(chuàng)報(bào)告】更多>: 《2026年1月電子商務(wù)用戶(hù)體驗(yàn)與投訴數(shù)據(jù)報(bào)告》; 《2026年1月電商平臺(tái)商家投訴數(shù)據(jù)報(bào)告》

【百?gòu)?qiáng)榜】更多>: 《2024年中國(guó)私域電商“百?gòu)?qiáng)榜”》; 《2024年中國(guó)直播電商“百?gòu)?qiáng)榜”》; 《2024年中國(guó)新零售“百?gòu)?qiáng)榜”》; 《2024年中國(guó)數(shù)字教育“百?gòu)?qiáng)榜”》

【版權(quán)聲明】秉承互聯(lián)網(wǎng)開(kāi)放、包容的精神，網(wǎng)經(jīng)社歡迎各方(自)媒體、機(jī)構(gòu)轉(zhuǎn)載、引用我們?cè)瓌?chuàng)內(nèi)容，但要嚴(yán)格注明來(lái)源網(wǎng)經(jīng)社；同時(shí)，我們倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)，如發(fā)現(xiàn)本站文章存在版權(quán)問(wèn)題，煩請(qǐng)將版權(quán)疑問(wèn)、授權(quán)證明、版權(quán)證明、聯(lián)系方式等，發(fā)郵件至NEWS@netsun.com，我們將第一時(shí)間核實(shí)、處理。