(網(wǎng)經(jīng)社訊)11月11日信息,Meta公司發(fā)布名為Omnilingual ASR的創(chuàng)新語音識別系統(tǒng),能夠處理超過1600種口語語言,其中包括500種此前從未被任何AI系統(tǒng)覆蓋的語言。這一突破性技術(shù)旨在解決全球語言資源不平等問題,推動人工智能向“通用轉(zhuǎn)錄系統(tǒng)”邁進。系統(tǒng)通過先進的機器學習模型,為資源匱乏的語言提供實用支持,標志著在消除語言障礙方面取得重大進展。
網(wǎng)經(jīng)社教育臺(EDU.100EC.CN)了解到,Omnilingual ASR系統(tǒng)的核心優(yōu)勢體現(xiàn)在其高精度與強大擴展性上。測試數(shù)據(jù)顯示,系統(tǒng)在78%的支持語言中實現(xiàn)了字符錯誤率低于10個的高標準表現(xiàn)。對于擁有至少10小時訓練音頻的資源豐富語言,這一精度標準覆蓋率達到95%;即使是訓練資源不足10小時的低資源語言,也有36%達到相同標準,展現(xiàn)出系統(tǒng)對不同資源條件語言的適應(yīng)能力。系統(tǒng)最具創(chuàng)新性的特點是引入“自帶語言”的情境學習功能,借鑒大語言模型技術(shù),用戶只需提供少量音頻文本配對樣本,即可讓系統(tǒng)快速學習新語言,無需重新訓練或大量計算資源。這一技術(shù)理論上可將支持語言擴展至5400種,遠超當前行業(yè)水平。
為推動技術(shù)普及,Meta采取全面開源策略:以Apache2.0許可證發(fā)布基于PyTorch的fairseq2框架模型,提供從3億參數(shù)到70億參數(shù)的不同版本;同步發(fā)布包含350種代表性不足語言的大型轉(zhuǎn)錄語音數(shù)據(jù)集,采用知識共享署名許可協(xié)議。這些舉措將助力全球開發(fā)者定制本地化語音識別方案,特別為少數(shù)民族和瀕危語言群體提供技術(shù)支撐。該系統(tǒng)的推出不僅填補了語言技術(shù)覆蓋的空白,更通過開源生態(tài)建設(shè)促進全球語言平等,為教育、醫(yī)療、文化保護等領(lǐng)域的數(shù)字化轉(zhuǎn)型提供新可能,標志著人工智能技術(shù)在實現(xiàn)真正普惠性方面邁出關(guān)鍵一步。


































.png)
.png)
