隻需要幾分鍾,這(zhè)個AI Agent就能(néng)學(xué)會人類專家行爲
隻需要幾分鍾,就可以成(chéng)功模仿專家行爲,并記住所有學(xué)過(guò)的知識,Google DeepMind 研發(fā)的 AI Agent,登上了 Nature 子刊。
據介紹,在 3D 模拟中,該智能(néng)體能(néng)夠在第一次見到的任務中實時模仿專家,并從第三人稱視角實時可靠地獲取來自人類搭檔的知識。
雖然該智能(néng)體之前從來沒(méi)有見過(guò)人類,但它可以在各種(zhǒng)有挑戰性的導航問題中從人類和 AI 專家中快速學(xué)習。例如,它可以在包含大量障礙的複雜地形中穿梭。
相關研究論文以“Learning few-shot imitation as cultural transmission”爲題,已發(fā)表在 Nature 子刊 Nature Communications 上。
研究團隊認爲,該研究結果是對(duì)具身 AI 實現快速知識傳播的一次概念驗證,是朝著(zhe)人類-AI 互動的開(kāi)放式文化演變邁出的第一步。
另外,AI 從業者可以從人類社會學(xué)習中汲取靈感,構建出适應當下人類夥伴的具身 AI 智能(néng)體,并妥善保護隐私。此外,具備社會學(xué)習能(néng)力的 AI 智能(néng)體或許還(hái)可以爲研究人類文化能(néng)力發(fā)展提供全新的建模工具。
具備實時文化傳播能(néng)力
文化傳播(Cultural transmission)是一項通用技能(néng),使人們能(néng)夠在社交中實時獲取和使用信息,同時具備高度的準确度和記憶力。在人類社會中,文化演化使得技能(néng)、工具和知識代代相傳,并在這(zhè)些過(guò)程中不斷積累和完善。
在這(zhè)項工作中,研究團隊通過(guò)應用智能(néng)體-環境共适應(agent environment co-adaptation)的方法,成(chéng)功生成(chéng)了一個具備實時文化傳播能(néng)力的 AI 智能(néng)體。
如上圖,爲實現這(zhè)一目标,他們引入了一個虛拟的 3D 任務空間,每個任務都(dōu)包含由程序生成(chéng)的地形、障礙物和目标球。
在每個任務中,AI 智能(néng)體需要按照特定的循環順序訪問目标球以獲取獎勵,而這(zhè)個順序是在任務開(kāi)始時随機确定的。然而,AI 智能(néng)體并不知道(dào)正确的順序,所以它必須通過(guò)實驗或從專家那裡(lǐ)學(xué)習來弄清楚。不過(guò),這(zhè)個任務空間設計得很複雜,可以通過(guò)調整世界的大小、障礙物的數量、地形的崎岖程度以及目标球的數量等參數來改變導航的難度。
研究人員通過(guò)精心設計的實驗發(fā)現,AI 智能(néng)體文化傳播的出現需要一組最小而充分的訓練要素,被(bèi)命名爲 MEDAL-ADR,包括函數逼近、記憶、專家共同參與者、專家丢失、對(duì)專家的注意偏向(xiàng)以及自動領域随機化。
圖|MEDAL-ADR 要素
其中,記憶通過(guò) LSTM 網絡實現,專家共同參與者是硬編碼的機器人,而自動領域随機化有助于訓練 AI 智能(néng)體在多樣(yàng)化的任務中展現出更好(hǎo)的行爲。
這(zhè)些組件的巧妙組合構成(chéng)了一個強大的 AI 智能(néng)體,其文化傳播能(néng)力在回憶(recall)、泛化(generalisation)和保真度(fidelity)三個方面(miàn)均表現出色。
回憶評估了智能(néng)體在沒(méi)有專家在場的情況下複制演示的能(néng)力,泛化衡量了智能(néng)體是否能(néng)夠在未知任務上進(jìn)行文化傳播,而保真度則計算了智能(néng)體選擇與專家演示者的一緻性程度。
最引人注目的是,這(zhè)個 AI 智能(néng)體的“大腦”神經(jīng)元展現出了強大的解釋力,專門負責編碼社交信息和目标狀态。這(zhè)一方法不僅使 AI 智能(néng)體在訓練分布之外實現了泛化,而且在專家離開(kāi)後(hòu)的單一情境内依然能(néng)夠回想起(qǐ)演示,爲實際應用場景提供了更多可能(néng)性,尤其是在人類數據收集困難、任務變化多樣(yàng)且隐私至關重要的情況下。
一些局限性
盡管該研究提出的 MEDAL-ADR 方法可以使 AI 智能(néng)體在開(kāi)放式學(xué)習中适應多樣(yàng)的文化環境。但是,研究者團隊也指出了評估方法上的一些局限性。首先,研究沒(méi)有從多個人中測試文化傳播,而是選擇了研究團隊内的一個單一參與者。因此,研究無法對(duì)跨越人群的強大性做出統計顯著的斷言。其次,導航任務對(duì)合理的人類行爲的多樣(yàng)性有一定的限制。爲了更深入地了解通用的文化傳播,研究需要具有更廣泛和深度策略的任務。
最後(hòu),研究人員并未明确區分訓練過(guò)的智能(néng)體是否記住了地理路徑,以及是否記住了正确球體順序。
MEDAL-ADR 在 GoalCycle3D 任務空間之外是否更爲通用?答案可能(néng)是有條件的“否”。
GoalCycle3D 是一個龐大的、程序生成(chéng)的任務空間,其作用類似于更廣泛類别任務的導航代表。這(zhè)些任務涉及到需要反複進(jìn)行戰略選擇序列的活動,比如烹饪、導航和問題解決。
然而,該方法需要一些環境條件,包括專家的可見性、退出和程序生成(chéng)。如果在某個環境中無法創建近似條件,那麼(me)該方法就無法應用。
此外,研究人員并不認爲 MEDAL-ADR 方法是人類文化傳播發(fā)展的直接模型。但是,他們鼓勵未來的研究者進(jìn)行更多實驗證明,如比較 MEDAL-ADR 的模型與不同階段兒童或非人動物的行爲,以及在實驗室環境中研究人類和 AI 的文化積累。這(zhè)種(zhǒng)實證研究有望加深對(duì)文化傳播、元學(xué)習和開(kāi)放式學(xué)習相關問題的理解。
研究團隊表示,他們期待未來 AI 和文化進(jìn)化心理學(xué)領域的跨學(xué)科交流。