劇集

Microsoft AI 如何擊敗 Pacman 女士

取代為 Rahul Mehrotra, Tavian Barnes

Microsoft Research 開發了稱為混合式獎勵架構的模型,將增強式學習調整為具有極其複雜價值函式和極大型狀態空間的工作。 該模型在PacMan女士身上取得了最高的分數,這是一項以前未解決的問題,並以10倍擊敗最先進的模型,並將人類基準的基準比對50%。 新技術會將大型複雜問題分解成許多較小型且更簡單的問題,而且每個代理程式所開發的技能可以跨類似的工作重複使用。 此研究串流讓 RL 更容易解決企業設定中的一般問題,而組織需要具有不同技能的多語言小組來尋找解決方案。 在本課程中,我們將深入探討推動這一產業水準成就的科學和樂趣。