Personalizer의 작동 원리

Important

2023년 9월 20일부터 새로운 Personalizer 리소스를 만들 수 없습니다. Personalizer 서비스는 2026년 10월 1일에 사용 중지됩니다.

Personalizer 리소스 학습 루프는 기계 학습을 사용하여 콘텐츠의 상위 작업을 예측하는 모델을 구축합니다. 모델은 순위보상 호출을 통해 보낸 데이터에서만 교육됩니다. 모든 루프는 서로 완전히 독립적입니다.

순위 및 보상 API가 모델에 영향을 미침

기능이 포함된 작업컨텍스트 기능을 순위 API로 보냅니다. Rank API는 다음 중 하나를 사용하도록 결정합니다.

  • 익스플로잇: 과거 데이터에 따라 최상의 작업을 결정하는 현재 모델입니다.
  • 탐색: 상위 작업 대신 다른 작업을 선택합니다. Azure Portal에서 Personalizer 리소스에 대해 이 비율을 구성합니다.

보상 점수를 결정하여 보상 API로 보냅니다. Reward API는 다음과 같습니다.

  • 각 순위 호출의 기능 및 보상 점수를 기록하여 모델을 학습시키기 위한 데이터를 수집합니다.
  • 이 데이터를 사용하여 학습 정책에 지정된 구성에 따라 모델을 업데이트합니다.

시스템에서 Personalizer 호출

다음 이미지에서는 Rank 호출 및 Reward 호출의 아키텍처 흐름을 보여 줍니다.

alt text

  1. 기능이 포함된 작업컨텍스트 기능을 순위 API로 보냅니다.

    • Personalizer에서 현재 모델을 활용할지, 아니면 모델에 대한 새 선택 항목을 검색할지를 결정합니다.
    • 순위 결과가 EventHub로 전송됩니다.
  2. 상위 순위가 보상 작업 ID로 시스템에 반환됩니다. 시스템에서 해당 콘텐츠를 표시하고 고유의 비즈니스 규칙에 따라 보상 점수를 결정합니다.

  3. 시스템은 보상 점수를 학습 루프로 반환합니다.

    • Personalizer에서 보상을 받으면 해당 보상을 EventHub에 보냅니다.
    • 순위와 보상이 상호 관련됩니다.
    • AI 모델이 상관 관계 결과에 따라 업데이트됩니다.
    • 유추 엔진이 새 모델로 업데이트됩니다.

Personalizer에서 모델 다시 학습

Personalizer는 Azure Portal의 Personalizer 리소스에 대한 모델 빈도 업데이트 설정을 기반으로 모델을 다시 학습시킵니다.

Personalizer는 Azure Portal의 Personalizer 리소스에 대한 데이터 보존 기간(일) 설정을 기반으로 현재 보존된 모든 데이터를 사용합니다.

Personalizer에 대한 연구

Personalizer는 Microsoft Research의 백서, 연구 활동 및 진행 중인 탐구 영역을 포함하여 보충 학습 분야의 최첨단 과학 및 연구를 기반으로 합니다.

다음 단계

Personalizer의 상위 시나리오에 대해 알아보기