日韩成人黄片电影|日本高清无码免费一区|久久草在线免费青青青av|91人人草人人操人人爽|亚洲AV成人Av|多人轮奸视频播放免费成人|91性生活电影日韩在线妻|国内日本欧美在线|日韩欧美图片区偷窥自拍|一区毛片电影无码成人国产

當(dāng)前位置:100EC>產(chǎn)業(yè)數(shù)字化>美團上線首個開源并可體驗的“重思考”模型,工具調(diào)用能力登頂開源SOTA
美團上線首個開源并可體驗的“重思考”模型,工具調(diào)用能力登頂開源SOTA
網(wǎng)經(jīng)社發(fā)布時間:2026年01月16日 13:31:07

(網(wǎng)經(jīng)社訊)1月16日,美團LongCat官微消息,作為LongCat-Flash-Thinking模型的升級版,LongCat-Flash-Thinking-2601現(xiàn)已開源。新模型在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調(diào)用)、TIR(工具交互推理)等核心評測基準上,均達到開源模型SOTA水平。

值得一提的是,該模型在工具調(diào)用的泛化能力上優(yōu)勢尤其明顯,在依賴工具調(diào)用的隨機復(fù)雜任務(wù)中,性能表現(xiàn)超越了Claude-Opus-4.5-Thinking,可大幅度降低真實場景下新工具的適配訓(xùn)練成本;同時,新模型支持“重思考”模式,可同時啟動8個“大腦”執(zhí)行任務(wù),確保思考周全、決策可靠。

目前,該功能可在 https://longcat.ai網(wǎng)站免費體驗。

“重思考”功能全新上線 智能體工具調(diào)用能力登頂開源 SOTA

據(jù)網(wǎng)經(jīng)社產(chǎn)業(yè)電商臺(B2B.100EC.CN)獲悉,全新推出的“重思考”模式,已讓“龍貓”學(xué)會了“深思熟慮”再行動。

具體來看,當(dāng)遇到高難度問題時,新模型會把思考過程拆分成“并行思考”和“總結(jié)歸納”兩步進行:

并行思考階段,與人類面對難題會同時嘗試多種解法相似,“重思考”模式下的模型,會在保證思路多樣性的同時,獨立梳理出多條推理路徑尋找最優(yōu)解;總結(jié)歸納階段,則會對多條路徑進行梳理、優(yōu)化與合成,并將優(yōu)化結(jié)果重新輸入,形成閉環(huán)迭代推理,推動思考持續(xù)深化。

除此之外,LongCat團隊在新模型中加入了額外的強化學(xué)習(xí)環(huán)節(jié),針對性打磨模型的總結(jié)歸納能力,從而讓LongCat-Flash-Thinking-2601實現(xiàn)了“想清楚再行動”的結(jié)果

經(jīng)過全面嚴謹?shù)脑u估,LongCat-Flash-Thinking-2601模型在編程、數(shù)學(xué)推理、智能體工具調(diào)用、智能體搜索等維度表現(xiàn)優(yōu)異:

image.png

LongCat-Flash-Thinking-2601的平均性能比較(資料圖)

· 編程能力:LongCat-Flash-Thinking-2601在LCB評測中取得82.8分,OIBench EN 評測獲47.7分,成績處于同類模型第一梯隊,代碼基礎(chǔ)能力扎實。

· 數(shù)學(xué)推理能力:在開啟“重思考”模式后表現(xiàn)突出,LongCat-Flash-Thinking-2601在 AIME-25 評測中獲100.0分(滿分),IMO-AnswerBench中以86.8分達到當(dāng)前SOTA。

· 智能體工具調(diào)用能力:在τ2-Bench評測中拿到88.2分,VitaBench評測中獲得29.3分,均獲得開源SOTA水平,在多領(lǐng)域工具調(diào)用場景下表現(xiàn)優(yōu)異,適配實際應(yīng)用需求。

· 智能體搜索能力:在BrowseComp任務(wù)中取得73.1分(全模型最優(yōu)),RW Search 評測獲79.5分,LongCat-Flash-Thinking-2601具備強勁的信息檢索與場景適配能力,達到開源領(lǐng)先水平。

為了更好測試智能體模型的泛化能力,團隊還提出了一種全新的評測方法——通過構(gòu)建一套自動化任務(wù)合成流程,支持用戶基于給定關(guān)鍵詞,為任意場景隨機生成復(fù)雜任務(wù),并為每個生成的任務(wù)配備對應(yīng)的工具集與可執(zhí)行環(huán)境。由于這類環(huán)境中的工具配置具有高度隨機性,該方法可通過評估模型在該類環(huán)境中的性能表現(xiàn),衡量其泛化能力。

實驗結(jié)果表明,LongCat-Flash-Thinking-2601在絕大多數(shù)任務(wù)中保持領(lǐng)先性能,印證了其在智能體場景下優(yōu)秀的泛化能力。

技術(shù)解密:從“靶場”到“實戰(zhàn)”的訓(xùn)練哲學(xué)

對于新模型的技術(shù)思路,LongCat團隊解釋稱,傳統(tǒng)智能體往往僅在數(shù)個簡單模擬環(huán)境里訓(xùn)練,這帶來的問題就像只在靶場訓(xùn)練的士兵,到了真實“戰(zhàn)場”可能會掉鏈子。而基于“環(huán)境擴展+多環(huán)境強化學(xué)習(xí)”核心技術(shù),團隊為模型打造了多樣化的“高強度練兵場”,構(gòu)建了多套高質(zhì)量訓(xùn)練環(huán)境,并在每套環(huán)境中集成60余種工具形成密集依賴關(guān)系圖譜與復(fù)雜聯(lián)動,支撐起高度復(fù)雜的任務(wù)場景。實驗也證明,訓(xùn)練環(huán)境越豐富,模型在未知場景中的泛化能力越強。

得益于這套方案,LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調(diào)用等核心基準測試中穩(wěn)居前列。尤其在復(fù)雜隨機的分布外任務(wù)中,性能優(yōu)于 Claude-Opus-4.5-Thinking。

此外,LongCat團隊針對性擴展自研強化學(xué)習(xí)基礎(chǔ)設(shè)施,在保留原有高效異步訓(xùn)練特性的基礎(chǔ)上,實現(xiàn)大規(guī)模多環(huán)境智能體的穩(wěn)定并行訓(xùn)練,通過均衡搭配多環(huán)境任務(wù)、按難度與訓(xùn)練進度智能分配算力,最大化提升訓(xùn)練效率與資源利用率;該團隊還從復(fù)雜度、多樣性雙維度嚴控訓(xùn)練任務(wù),配套專屬數(shù)據(jù)庫及優(yōu)化方案,杜絕模型“偏科”與訓(xùn)練漏洞,讓這套全流程方案持續(xù)賦能模型,使其穩(wěn)居智能體能力第一梯隊。

該團隊還表示,現(xiàn)實世界的智能體環(huán)境充滿不確定性,API調(diào)用失敗、返回異常信息、觀測數(shù)據(jù)不完整等“噪聲”問題,極易導(dǎo)致模型決策失誤。為此,團隊在訓(xùn)練數(shù)據(jù)的過程中主動注入多類噪聲,模擬API的調(diào)用失敗、返回錯誤信息、數(shù)據(jù)缺失等場景,并用課程學(xué)習(xí)的方式循序漸進地進行模型訓(xùn)練,在訓(xùn)練過程中逐步增加噪聲的類型與強度——類比教新手騎車,首先會讓其在平坦路面做練習(xí),等技能成熟后再逐步增加路面的復(fù)雜度。

image.png

帶噪聲/無噪聲評測集下的模型表現(xiàn)對比(資料圖)

經(jīng)過系統(tǒng)化的抗干擾訓(xùn)練,LongCat-Flash-Thinking-2601(Training w/Noise組)擁有了極強的環(huán)境適應(yīng)能力,在復(fù)雜場景中,也能穩(wěn)定發(fā)揮、高效完成任務(wù)。

浙江網(wǎng)經(jīng)社信息科技公司擁有18年歷史,作為中國領(lǐng)先的數(shù)字經(jīng)濟新媒體、服務(wù)商,提供“媒體+智庫”、“會員+孵化”服務(wù);(1)面向電商平臺、頭部服務(wù)商等PR條線提供媒體傳播服務(wù);(2)面向各類企事業(yè)單位、政府部門、培訓(xùn)機構(gòu)、電商平臺等提供智庫服務(wù);(3)面向各類電商渠道方、品牌方、商家、供應(yīng)鏈公司等提供“千電萬商”生態(tài)圈服務(wù);(4)面向各類初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務(wù)。

網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫(DATA.100EC.CN,免費注冊體驗全庫)基于電商行業(yè)18年沉淀,包含100+上市公司、新三板公司數(shù)據(jù),150+獨角獸、200+千里馬公司數(shù)據(jù),4000+起投融資數(shù)據(jù)以及10萬+互聯(lián)網(wǎng)APP數(shù)據(jù),全面覆蓋“頭部+腰部+長尾”電商,旨在通過數(shù)據(jù)可視化形式幫助了解電商行業(yè),挖掘行業(yè)市場潛力,助力企業(yè)決策,做電商人研究、決策的“好參謀”。

【版權(quán)聲明】秉承互聯(lián)網(wǎng)開放、包容的精神,網(wǎng)經(jīng)社歡迎各方(自)媒體、機構(gòu)轉(zhuǎn)載、引用我們原創(chuàng)內(nèi)容,但要嚴格注明來源網(wǎng)經(jīng)社;同時,我們倡導(dǎo)尊重與保護知識產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請將版權(quán)疑問、授權(quán)證明、版權(quán)證明、聯(lián)系方式等,發(fā)郵件至NEWS@netsun.com,我們將第一時間核實、處理。

        平臺名稱
        平臺回復(fù)率
        回復(fù)時效性
        用戶滿意度
          微信公眾號
          微信二維碼 打開微信“掃一掃”
          微信小程序
          小程序二維碼 打開微信“掃一掃”