(網(wǎng)經(jīng)社訊)阿里云近日發(fā)布了多模態(tài)交互開(kāi)發(fā)套件,旨在將旗下通義系列大模型的能力,更便捷地集成到各類(lèi)硬件終端中。該套件集成了千問(wèn)、萬(wàn)相、百聆三款基礎(chǔ)大模型,并預(yù)置了覆蓋生活、工作、娛樂(lè)、教育等多個(gè)場(chǎng)景的十余款智能體(Agent)和工具(MCP),可應(yīng)用于AI眼鏡、學(xué)習(xí)機(jī)、陪伴玩具、智能機(jī)器人等設(shè)備。
據(jù)網(wǎng)經(jīng)社云計(jì)算臺(tái)(CC.100EC.CN)了解,該套件的推出,源于行業(yè)對(duì)硬件設(shè)備智能化提升的需求。目前,僅靠基礎(chǔ)大模型難以同時(shí)滿足硬件對(duì)低成本、低時(shí)延、功能豐富及高質(zhì)量效果的綜合性要求。阿里云此套件意在為硬件企業(yè)和解決方案商提供一個(gè)開(kāi)發(fā)門(mén)檻較低、響應(yīng)速度快、場(chǎng)景覆蓋面廣的平臺(tái)。
在技術(shù)層面,該套件適配了30多款主流的ARM、RISC-V和MIPS架構(gòu)終端芯片,以滿足市面上大多數(shù)硬件設(shè)備的快速接入需求。阿里云表示,未來(lái)通義大模型將與玄鐵RISC-V進(jìn)行軟硬全鏈路的協(xié)同優(yōu)化,以實(shí)現(xiàn)模型在RISC-V架構(gòu)上的高效部署和推理。
在模型優(yōu)化方面,除通義模型家族外,阿里云還針對(duì)多模態(tài)交互場(chǎng)景推出了專(zhuān)用模型,支持全雙工語(yǔ)音、視頻、圖文等交互方式,端到端語(yǔ)音交互時(shí)延可低至1秒,視頻交互時(shí)延可低至1.5秒。
該套件還接入了阿里云的百煉平臺(tái)生態(tài),用戶可添加其他開(kāi)發(fā)者提供的工具或智能體模板,并通過(guò)A2A協(xié)議兼容第三方智能體,以擴(kuò)展應(yīng)用能力邊界?,F(xiàn)場(chǎng)展示的應(yīng)用方案包括,在AI眼鏡場(chǎng)景中,可實(shí)現(xiàn)同聲傳譯、拍照翻譯等功能;在家庭陪伴機(jī)器人場(chǎng)景中,可實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè)異常、視頻內(nèi)容查找定位以及與機(jī)器人對(duì)話控制設(shè)備等。
根據(jù)國(guó)際研究機(jī)構(gòu)Gartner發(fā)布的生成式AI(GenAI)技術(shù)創(chuàng)新指南報(bào)告,阿里云在GenAI云基礎(chǔ)設(shè)施、GenAI工程、GenAI模型及AI知識(shí)管理應(yīng)用四大維度均位列“新興領(lǐng)導(dǎo)者”象限,是入選全部四項(xiàng)的亞太唯一廠商。


































.png)
.png)
