(網(wǎng)經(jīng)社訊)8月7日消息,小紅書hi lab(人文智能實(shí)驗室)開源了其首款多模態(tài)大模型dots.vlm1,這一模型基于DeepSeek V3打造,并配備了由小紅書自研的12億參數(shù)視覺編碼器NaViT,具備多模態(tài)理解與推理能力。
在主要的視覺評測集上,dots.vlm1的整體表現(xiàn)已接近當(dāng)前領(lǐng)先模型,如Gemini 2.5 Pro與Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等多個基準(zhǔn)測試中顯示出較強(qiáng)的圖文理解與推理能力。
據(jù)網(wǎng)經(jīng)社云計算臺(CC.100EC.CN)了解,這一模型可以看懂復(fù)雜的圖文交錯圖表,理解表情包背后的含義,分析兩款產(chǎn)品的配料表差異,還能判斷博物館中文物、畫作的名稱和背景信息。

在主流視覺評測數(shù)據(jù)集上,dots.vlm1的整體性能已逼近當(dāng)前處于領(lǐng)先地位的Gemini2.5Pro和Seed-VL1.5thinking模型。特別是在MMMU、MathVision、OCRReasoning等多個基準(zhǔn)測試中,它展現(xiàn)出極具競爭力的成果,充分彰顯了其出色的圖文理解與推理能力。
在AIME、GPQA、LiveCodeBench等典型文本推理任務(wù)中,dots.vlm1的表現(xiàn)與DeepSeek-R1-0528大致相當(dāng)。這表明它在數(shù)學(xué)和代碼能力方面已具備一定的通用性,但在GPQA等涵蓋范圍更廣的推理任務(wù)上,仍存在明顯差距。
綜合而言,dots.vlm1在視覺多模態(tài)能力上已接近當(dāng)前最佳水平,文本推理能力也達(dá)到了主流模型的標(biāo)準(zhǔn)。不過,在部分細(xì)分任務(wù)中,它與最優(yōu)結(jié)果仍有一定距離,未來還需在架構(gòu)設(shè)計和訓(xùn)練數(shù)據(jù)兩方面進(jìn)行進(jìn)一步優(yōu)化。


































