剧集

Microsoft AI 如何击败 Pacman 女士

替换为 Rahul Mehrotra, Tavian Barnes

Microsoft Research 开发了一个名为混合奖励体系结构的模型,用于将强化学习扩展到具有极其复杂的价值函数和非常大的状态空间的任务。 该模型在PacMan女士上取得了最高分,这是一项以前未解决的任务,10倍击败了最先进的模型,人类基线达到50%。 新技术将大型复杂问题分解为许多更小、更简单的问题,并且每个代理开发的技能可以在类似任务中重复使用。 这种研究流使 RL 更适合解决企业设置中的一般问题,因为组织需要具有不同技能组的多语言团队才能找到解决方案。 在本次研讨会中,我们将深入到推动这一行业水平成就的科学和乐趣的幕后。