你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

什么是强化学习？

重要

从 2023 年 9 月 20 日开始，将无法创建新的个性化体验创建服务资源。个性化体验创建服务将于 2026 年 10 月 1 日停用。

强化学习是一种机器学习方法，它可以在使用机器学习的过程中通过获取反馈来学习行为。

强化学习的工作原理：

强化学习存在许多的子类型和样式，个性化体验创建服务中的相关概念如下：

与某些强化学习方法不同，个性化体验创建服务不需要模拟即可正常运行。其学习算法旨对外界做出反应（而不是控制它），并从每个数据点学习信息，并能理解这是一种需要时间与成本来创造的独特机会，即使性能欠佳，也不会带来遗憾（可能奖励的丢失）。

个性化体验创建服务使用哪种类型的强化学习算法？

最新版本的个性化体验创建服务使用上下文赌博机，该强化学习方法限定为在给定上下文中的离散操作之间做出决策或选择。

决策内存（在给定上下文后，训练的模型将捕获可能最佳的决策）使用一组线性模型。这些方法反复展示了业务成果并且是经过证实的方法，一部分原因是它们可以极快地从真实世界中学习信息，而无需多次通过训练，另一部分原因是它们可为监督式学习模型和深度神经网络模型提供补充。

探索/最佳操作流量分配是遵循针对探索设置的百分比随机发生的，用于探索的默认算法是 Epsilon-Greedy。

John Langford 杜撰了“上下文赌博机”一词（Langford 和 Zhang [2007]），用于描述强化学习的易驾驭子集，他编写了五六篇论文来提高我们对范式的理解：

John 还曾经编写了几篇教程来阐述联合预测 (ICML 2015)、上下文赌博机理论 (NIPS 2013)、主动学习 (ICML 2009) 和示例复杂性边界 (ICML 2003) 等主题

个性化体验创建服务目前使用 Vowpal Wabbit 作为机器学习的基础。使用所有事件做出个性化排名和训练模型时，此框架可以实现最大的吞吐量和最低的延迟。