Personalizer 학습 동작 구성

Important

2023년 9월 20일부터 새 Personalizer 리소스를 만들 수 없습니다. Personalizer 서비스는 2026년 10월 1일에 사용 중지됩니다.

학습자 모드 는 Personalizer 서비스 및 기계 학습 기능에 대한 신뢰와 신뢰를 제공하며, 온라인 트래픽의 위험 없이 서비스에서 학습할 수 있는 정보를 전송할 수 있도록 보장합니다.

실습생 모드 구성

  1. Personalizer 리소스에 대해 Azure Portal에 로그인합니다.

  2. 설정 페이지의 모델 설정 탭에서 실습생 모드를 선택한 다음 저장을 선택합니다.

Screenshot of configuring apprentice mode learning behavior in Azure portal

기존 애플리케이션에 대한 변경 내용

기존 애플리케이션은 현재 표시할 작업을 선택하는 방법 또는 애플리케이션이 해당 작업의 값, 보상을 결정하는 방법을 변경해서는 안 됩니다. 애플리케이션에 대해 변경할 수 있는 유일한 사항은 Personalizer 순위 API로 전송되는 작업 순서일 수 있습니다. 애플리케이션이 현재 표시하는 작업은 작업 목록의 첫 번째 작업 으로 전송됩니다. 순위 API이 첫 번째 작업을 사용하여 Personalizer 모델을 학습합니다.

Rank API를 호출하도록 애플리케이션 구성

애플리케이션에 Personalizer를 추가하려면 순위 및 보상 API를 호출해야 합니다.

  1. 작업 목록과 해당 기능을 결정하는 기존 애플리케이션 논리의 지점 뒤의 순위 API 호출을 추가합니다. 작업 목록의 첫 번째 작업은 기존 논리에서 선택한 작업이어야 합니다.

  2. 순위 API 응답의 보상 작업 ID와 관련된 작업을 표시하도록 코드를 구성합니다.

Reward API를 호출하도록 애플리케이션 구성

참고 항목

보상 API 호출은 견습 모드에서 학습에 영향을 미치지 않습니다. 서비스는 애플리케이션의 현재 논리 또는 기본 작업을 일치시켜 학습합니다. 그러나 이 단계에서 보상 호출을 구현하면 Azure Portal에서 간단한 전환을 통해 나중에 온라인 모드로 원활하게 전환할 수 있습니다. 또한 보상이 기록되므로 현재 논리가 얼마나 잘 수행되고 있고 얼마나 많은 보상을 받고 있는지 분석할 수 있습니다.

  1. 기존 비즈니스 논리를 사용하여 표시된 작업의 보상을 계산합니다. 값은 0에서 1까지의 범위에 있어야 합니다. 보상 API를 사용하여 Personalizer에 이 보상을 보냅니다. 보상 값은 즉시 예상되지 않으며 비즈니스 논리에 따라 일정 기간 동안 지연될 수 있습니다.

  2. 구성된 보상 대기 시간 내에 보상을 반환하지 않으면 기본 보상이 대신 기록됩니다.

실습생 모드 평가

Azure Portal의 Personalizer 리소스에 대한 모니터 페이지에서 일치하는 성능을 검토합니다.

Screenshot of reviewing evaluation of apprentice mode learning behavior in Azure portal

견습생 모드는 다음과 같은 평가 메트릭을 제공합니다.

  • 기준 – 평균 보상: 애플리케이션 기본값(기준)의 평균 보상입니다.
  • Personalizer – 평균 보상: Personalizer가 잠재적으로 도달했을 수 있는 총 보상의 평균입니다.
  • 가장 최근 1000개 이벤트에 대한 보상 도전 과제 비율: 초기 계획 및 Personalizer 보상의 비율 - 가장 최근의 1000개 이벤트에 대해 정규화되었습니다.

동작을 온라인 모드로 전환

Personalizer가 평균 75~85%의 롤링 평균으로 학습된 것으로 확인되면 모델은 온라인 모드로 전환할 준비가 됩니다.

Personalizer 리소스에 대한 Azure 포털의 설정 페이지의 모델 설정 탭에서 *온라인 모드를 선택한 다음 저장을 선택합니다.

순위 및 보상 API 호출을 변경할 필요가 없습니다.

다음 단계