Терминология Персонализатора
Внимание
Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Персонализатора отменяется 1 октября 2026 года.
Персонализатор использует терминологию из обучения с подкреплением. Эти термины используются на портале Azure и в API.
Концептуальная терминология
Цикл обучения: вы создаете ресурс Персонализатора, называемый циклом обучения, для каждой части вашего приложения, которая может извлечь выгоду из персонализации. Если у вас есть несколько сред для персонализации, создайте цикл для каждой из них.
Модель: модель Персонализатора фиксирует все полученные данные о поведении пользователей, получение данных обучения из комбинации аргументов, которые вы отправляете в вызовы "Ранг" и "Вознаграждение", а также с поведением обучения, определяемым Политикой обучения.
Онлайн-режим: поведение обучения по умолчанию для Персонализатора, в котором ваш цикл обучения использует машинное обучение для построения модели, предсказывающей основные действия для вашего контента.
Режим ученика: поведение при обучении, которое помогает разогреть модель Персонализатора для обучения, не влияя на результаты и действия приложений.
Поведение при обучении:
- Онлайн-режим: верните лучшее действие. Ваша модель будет реагировать на вызовы ранга наилучшим действием и использовать призывы вознаграждения, чтобы изучать и улучшать свой выбор с течением времени.
- Режим ученика: обучайтесь как ученик. Ваша модель будет учиться, наблюдая за поведением вашей существующей системы. Вызовы ранга всегда возвращают действие приложения по умолчанию (базовое значение).
Конфигурация Персонализатора
Персонализатор настраивается на портале Azure.
Награды: настройте значения по умолчанию для времени ожидания вознаграждения, вознаграждения по умолчанию и политики агрегирования вознаграждений.
Исследование: настройте процент вызовов ранга, которые будут использоваться для исследования
Частота обновления модели: как часто модель переобучается.
Хранение данных: сколько дней хранить данные. Это может повлиять на автономные оценки, которые используются для улучшения вашего цикла обучения.
Используйте API рангов и вознаграждений
Ранг: учитывая действия с функциями и контекстными функциями, используйте исследование или эксплойт, чтобы вернуть верхнее действие (элемент контента).
Действия: действия — это элементы содержимого, такие как продукты или рекламные акции, на выбор. Персонализатор выбирает верхнее действие (возвращенный идентификатор действия вознаграждения), которое будет показано вашим пользователям через Rank API.
Контекст: чтобы дать более точный рейтинг, предоставьте информацию о вашем контексте, например:
- ваш пользователь;
- используемое устройство;
- Текущее время.
- другие данные о текущей ситуации;
- исторические данные о пользователе или контексте.
Конкретное приложение может включать в себя другие контекстные сведения.
Функции: единица информации об элементе контента или пользовательском контексте. Убедитесь, что вы используете только агрегированные функции. Не используйте в качестве функций конкретное время, идентификаторы пользователей или другие неагрегированные данные.
- Функция действия — это метаданные о содержимом.
- Контекстная функция — это метаданные о контексте, в котором представлен контент.
Исследование: служба Персонализатора изучает, когда вместо того, чтобы возвращать лучшее действие, она выбирает другое действие для пользователя. Эта служба позволяет избежать смещения и застоя и может адаптироваться к текущему поведению пользователя путем изучения.
Лучшее действие: служба персонализатора использует текущую модель, чтобы решить лучшее действие на основе прошлых данных.
Продолжительность эксперимента: количество времени, в течение которого служба Персонализатора ожидает награды, начиная с момента, когда для этого события произошел вызов Rank.
Неактивные события: неактивное событие — это событие, в котором вы вызвали рейтинг, но вы не уверены, что пользователь когда-либо увидит результат из-за решений клиентского приложения. Неактивные события позволяют создавать и сохранять результаты персонализации, а решение об их отмене принимать позже, что не повлияет на модель машинного обучения.
Награда: мера того, как пользователь отреагировал на идентификатор действия вознаграждения, возвращенный Rank API, в виде балла от 0 до 1. Бизнес-логика задает значение от 0 до 1 в зависимости от того, как этот выбор помог достичь ваших бизнес-целей персонализации. Цикл обучения не сохраняет эту награду как индивидуальную историю пользователя.
Оценки
Автономная оценка
Оценка: автономная оценка определяет лучшую политику обучения для вашего цикла на основе данных вашего приложения.
Политика обучения: как Персонализатор обучает модель каждому событию, будет определяться некоторыми параметрами, которые влияют на работу алгоритма машинного обучения. Новый цикл обучения начинается с Политики обучения по умолчанию, которая может дать умеренную производительность. При запуске Оценок Персонализатор создает новые политики обучения, специально оптимизированные для вариантов использования вашего цикла. Персонализатор будет работать значительно лучше с политиками, оптимизированными для каждого конкретного цикла, созданного во время оценки. Политика обучения называется параметрами обучения в модели и параметрами обучения для ресурса Персонализатора на портале Azure.
Оценки режима ученика
Режим ученика предоставляет следующие метрики оценки:
- Базовый уровень — среднее вознаграждение: средние вознаграждения по умолчанию для приложения (базовый уровень).
- Персонализатор — среднее вознаграждение: среднее из общего числа вознаграждений, которые потенциально мог бы получить Персонализатор.
- Средняя скользящая награда: соотношение базовой и персонализированной награды — нормализовано по последним 1000 событиям.
Следующие шаги
- Узнайте об этике и ответственном использовании