在動態(tài)和開放的真實世界中,如何讓智能機器人像人類一樣持續(xù)掌握新技能,而又不遺忘舊有知識,是通用人工智能和機器人學(xué)領(lǐng)域面臨的一項核心技術(shù)瓶頸。傳統(tǒng)學(xué)習(xí)范式下的機器人在學(xué)習(xí)新任務(wù)時,新知識往往會干擾甚至完全覆蓋已習(xí)得的舊技能,這一“災(zāi)難性遺忘”現(xiàn)象嚴重限制了機器人在復(fù)雜場景中長期自主服務(wù)的潛力。
近日,中國科學(xué)院重慶綠色智能技術(shù)研究院大數(shù)據(jù)與無人系統(tǒng)研究中心在自然語言處理(NLP)領(lǐng)域頂級學(xué)術(shù)會議ACL 2025(Annual Meeting of the Association for Computational Linguistics,國際計算語言學(xué)年會,CCF A類會議)上發(fā)表了題為《DRAE: Dynamic Retrieval-Augmented Expert Networks?for Lifelong Learning?and Task Adaptation in?Robotics》的論文,提出了一種名為DRAE(動態(tài)檢索增強專家網(wǎng)絡(luò))的機器人終身學(xué)習(xí)新框架。針對現(xiàn)有方法面臨的核心技術(shù)瓶頸——靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)難以適應(yīng)動態(tài)任務(wù)變化、固定檢索系統(tǒng)無法處理不斷演進的知識需求,研究團隊受人腦神經(jīng)可塑性機制啟發(fā),構(gòu)建了四重協(xié)同的技術(shù)架構(gòu):動態(tài)專家混合模型(MoE)負責(zé)智能任務(wù)路由分配,指導(dǎo)參數(shù)化檢索增強生成(P-RAG)技術(shù)從外部知識庫精準獲取相關(guān)信息,這些增強信息與任務(wù)狀態(tài)一起輸入ReflexNet-SchemaPlanner-HyperOptima三層認知控制架構(gòu)進行感知-規(guī)劃-執(zhí)行的完整決策處理,而狄利克雷過程混合模型(DPMM)將整個處理過程中的關(guān)鍵知識以非參數(shù)貝葉斯方式動態(tài)存儲,形成任務(wù)級知識積累的閉環(huán)反饋。該方法的關(guān)鍵突破在于通過統(tǒng)一數(shù)學(xué)框架將四個核心組件深度融合,實現(xiàn)了知識檢索與參數(shù)更新的有效解耦,從根本上解決了新技能學(xué)習(xí)過程中對舊技能參數(shù)的破壞性覆蓋問題,為機器人系統(tǒng)在復(fù)雜環(huán)境中的持續(xù)自主學(xué)習(xí)提供了可行的技術(shù)路徑。
實驗結(jié)果表明,DRAE框架在多項關(guān)鍵指標上達到國際先進水平。在MimicGen多任務(wù)機器人操作基準測試中,平均任務(wù)成功率達到78%,顯著超越傳統(tǒng)MoE基線模型的73%;在NAVSIM自動駕駛導(dǎo)航仿真基準中,綜合評估分數(shù)達到82.5分,在路徑完成率(98.4%)和碰撞避免率(96.2%)兩項關(guān)鍵指標上均為最佳表現(xiàn);在LLFF和NeRF?Synthetic 3D視覺合成數(shù)據(jù)集上,峰值信噪比分別達到26.07dB和27.47dB,超越當(dāng)前最先進方法;在物理人形機器人的12項復(fù)雜動作指令測試中,成功率達到90-100%,驗證了框架在真實環(huán)境中的有效性。
????該研究成果為提升機器人在復(fù)雜、非結(jié)構(gòu)化環(huán)境中的持續(xù)學(xué)習(xí)與自適應(yīng)能力提供了新的技術(shù)途徑,在有效緩解災(zāi)難性遺忘的同時保持了計算效率,為開發(fā)能夠長期自主學(xué)習(xí)的機器人系統(tǒng)提供了有價值的參考。
上述論文作者包括中國科學(xué)院重慶綠色智能技術(shù)研究院碩士一年級研究生龍埡宇、陳可為,通訊作者為尚明生研究員,相關(guān)研究得到了國家自然科學(xué)基金等項目的支持。