?小米大模型團隊音頻推理登頂MMAU榜

?小米大模型團隊音頻推理登頂MMAU榜

近日,小米大模型團隊在音頻推理領域取得重大突破,成功登頂國際權威的MMAU(Masive Multi-Task Audio Understanding and Reasoning)音頻理解評測榜首。這一成就得益于團隊將強化學習算法應用于多模態(tài)音頻理解任務,僅用一周時間便實現了64.5%的SOTA(State Of The Art)準確率。

據悉,MMAU評測集通過一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本,測試模型在27種技能上的表現,期望模型達到接近人類專家的邏輯分析水平。此前,表現最好的模型來自OpenAI的GPT-4o,準確率為57.3%。小米團隊受DeepSeek-R1啟發(fā),將GRPO算法遷移到Qwen2-Audio-7B模型上,在僅使用3.8萬條訓練樣本的情況下,實現了顯著的性能提升。

此次實驗不僅驗證了強化學習在音頻推理領域的獨特價值,也為后續(xù)研究提供了新的思路。小米團隊表示,將把訓練代碼、模型參數開源,并提供技術報告,供學術界和產業(yè)界參考交流。這一成果標志著小米在人工智能領域的技術實力不斷提升,也為智能聽覺時代的發(fā)展注入了新的活力。

原創(chuàng)文章,作者:XIAOMI,如若轉載,請注明出處:http://m.rponds.cn/article/710539.html

XIAOMI的頭像XIAOMI認證作者

相關推薦

發(fā)表回復

登錄后才能評論