
北京時間3月12日晚,谷歌旗下DeepMind團隊宣布推出兩款新型AI模型——?Gemini Robotics?和?Gemini Robotics-ER?,旨在賦予機器人更強大的現(xiàn)實任務處理能力,即便未經(jīng)專門訓練也能適應新場景。這一突破或?qū)⒓铀僦悄軝C器人在日常場景的應用落地。
首款模型?Gemini Robotics?基于谷歌最新多模態(tài)大模型Gemini 2.0開發(fā),被定義為“視覺語言行動模型”。其核心能力在于融合物理行動模態(tài),使機器人能實時理解環(huán)境并執(zhí)行操作。例如,完成折紙、擰瓶蓋等精細動作,或在陌生場景中與人類協(xié)作。DeepMind機器人部門高級總監(jiān)Carolina Parada表示,該模型在通用性、互動性和靈活性三大關(guān)鍵領域取得進展,能適應多樣化的物理環(huán)境。
第二款模型?Gemini Robotics-ER?(具象推理)則專注于復雜動態(tài)場景的決策。例如,當機器人需整理桌面物品或打包餐盒時,該模型可分析物體位置、操作順序等邏輯關(guān)系,并與底層控制系統(tǒng)聯(lián)動完成推理任務。Parada解釋稱,此類模型需“理解并預測動態(tài)變化的世界”,其設計目標是為機器人提供類人的環(huán)境交互智能。
為確保安全性,DeepMind研究員Vikas Sindhwani透露,團隊開發(fā)了分層安全策略,訓練模型自主評估動作風險。此外,公司同步發(fā)布了安全研究框架,延續(xù)了2023年提出的“機器人憲法”規(guī)范。目前,這兩項技術(shù)已向波士頓動力、Agility Robotics等合作方開放測試,并與Apptronik聯(lián)合推進人形機器人研發(fā)。DeepMind表示,未來希望將此類AI智能拓展至工業(yè)、家庭服務等多個領域。
原創(chuàng)文章,作者:Google,如若轉(zhuǎn)載,請注明出處:http://m.rponds.cn/article/710066.html