该小组起首练習 AI 把指令與遊戲中正在举行的不异動作的截图联系關系起来。然後,他們讓 AI 用一系列遊戲脚色經由過程的每一個房間的指令操练玩遊戲,對治療狐臭產品,完成号令和遊戲經由過程的举措举行嘉奖。
為了驗證 AI 對“爬梯子”等号令有了大致的理解,钻研职員举行了另外一項實行,他們移除第二個房間的练習数据。Kaplan說,體系虽然之前没有见過房間结构,但依然可以或许依照该房間的批示举行操作,這表白它不但仅是死記硬背。相反,它多是從先前的指令举行了發散。當它找到一個更好的攻略時,它也學會了疏忽指令。