Поделиться через


Терминология Персонализатора

Внимание

Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Персонализатора отменяется 1 октября 2026 года.

Персонализатор использует терминологию из обучения с подкреплением. Эти термины используются на портале Azure и в API.

Концептуальная терминология

  • Цикл обучения: вы создаете ресурс Персонализатора, называемый циклом обучения, для каждой части вашего приложения, которая может извлечь выгоду из персонализации. Если у вас есть несколько сред для персонализации, создайте цикл для каждой из них.

  • Модель: модель Персонализатора фиксирует все полученные данные о поведении пользователей, получение данных обучения из комбинации аргументов, которые вы отправляете в вызовы "Ранг" и "Вознаграждение", а также с поведением обучения, определяемым Политикой обучения.

  • Онлайн-режим: поведение обучения по умолчанию для Персонализатора, в котором ваш цикл обучения использует машинное обучение для построения модели, предсказывающей основные действия для вашего контента.

  • Режим ученика: поведение при обучении, которое помогает разогреть модель Персонализатора для обучения, не влияя на результаты и действия приложений.

Поведение при обучении:

  • Онлайн-режим: верните лучшее действие. Ваша модель будет реагировать на вызовы ранга наилучшим действием и использовать призывы вознаграждения, чтобы изучать и улучшать свой выбор с течением времени.
  • Режим ученика: обучайтесь как ученик. Ваша модель будет учиться, наблюдая за поведением вашей существующей системы. Вызовы ранга всегда возвращают действие приложения по умолчанию (базовое значение).

Конфигурация Персонализатора

Персонализатор настраивается на портале Azure.

  • Награды: настройте значения по умолчанию для времени ожидания вознаграждения, вознаграждения по умолчанию и политики агрегирования вознаграждений.

  • Исследование: настройте процент вызовов ранга, которые будут использоваться для исследования

  • Частота обновления модели: как часто модель переобучается.

  • Хранение данных: сколько дней хранить данные. Это может повлиять на автономные оценки, которые используются для улучшения вашего цикла обучения.

Используйте API рангов и вознаграждений

  • Ранг: учитывая действия с функциями и контекстными функциями, используйте исследование или эксплойт, чтобы вернуть верхнее действие (элемент контента).

    • Действия: действия — это элементы содержимого, такие как продукты или рекламные акции, на выбор. Персонализатор выбирает верхнее действие (возвращенный идентификатор действия вознаграждения), которое будет показано вашим пользователям через Rank API.

    • Контекст: чтобы дать более точный рейтинг, предоставьте информацию о вашем контексте, например:

      • ваш пользователь;
      • используемое устройство;
      • Текущее время.
      • другие данные о текущей ситуации;
      • исторические данные о пользователе или контексте.

      Конкретное приложение может включать в себя другие контекстные сведения.

    • Функции: единица информации об элементе контента или пользовательском контексте. Убедитесь, что вы используете только агрегированные функции. Не используйте в качестве функций конкретное время, идентификаторы пользователей или другие неагрегированные данные.

      • Функция действия — это метаданные о содержимом.
      • Контекстная функция — это метаданные о контексте, в котором представлен контент.
  • Исследование: служба Персонализатора изучает, когда вместо того, чтобы возвращать лучшее действие, она выбирает другое действие для пользователя. Эта служба позволяет избежать смещения и застоя и может адаптироваться к текущему поведению пользователя путем изучения.

  • Лучшее действие: служба персонализатора использует текущую модель, чтобы решить лучшее действие на основе прошлых данных.

  • Продолжительность эксперимента: количество времени, в течение которого служба Персонализатора ожидает награды, начиная с момента, когда для этого события произошел вызов Rank.

  • Неактивные события: неактивное событие — это событие, в котором вы вызвали рейтинг, но вы не уверены, что пользователь когда-либо увидит результат из-за решений клиентского приложения. Неактивные события позволяют создавать и сохранять результаты персонализации, а решение об их отмене принимать позже, что не повлияет на модель машинного обучения.

  • Награда: мера того, как пользователь отреагировал на идентификатор действия вознаграждения, возвращенный Rank API, в виде балла от 0 до 1. Бизнес-логика задает значение от 0 до 1 в ​​зависимости от того, как этот выбор помог достичь ваших бизнес-целей персонализации. Цикл обучения не сохраняет эту награду как индивидуальную историю пользователя.

Оценки

Автономная оценка

  • Оценка: автономная оценка определяет лучшую политику обучения для вашего цикла на основе данных вашего приложения.

  • Политика обучения: как Персонализатор обучает модель каждому событию, будет определяться некоторыми параметрами, которые влияют на работу алгоритма машинного обучения. Новый цикл обучения начинается с Политики обучения по умолчанию, которая может дать умеренную производительность. При запуске Оценок Персонализатор создает новые политики обучения, специально оптимизированные для вариантов использования вашего цикла. Персонализатор будет работать значительно лучше с политиками, оптимизированными для каждого конкретного цикла, созданного во время оценки. Политика обучения называется параметрами обучения в модели и параметрами обучения для ресурса Персонализатора на портале Azure.

Оценки режима ученика

Режим ученика предоставляет следующие метрики оценки:

  • Базовый уровень — среднее вознаграждение: средние вознаграждения по умолчанию для приложения (базовый уровень).
  • Персонализатор — среднее вознаграждение: среднее из общего числа вознаграждений, которые потенциально мог бы получить Персонализатор.
  • Средняя скользящая награда: соотношение базовой и персонализированной награды — нормализовано по последним 1000 событиям.

Следующие шаги