Copilot 조정 사용하여 Microsoft 365 Copilot 사용자 지정(초기 액세스 미리 보기)

조직은 Microsoft 365 Copilot 조정 사용하여 고유한 용어, 커뮤니케이션 스타일 및 비즈니스 프로세스를 반영하도록 AI 모델을 조정할 수 있습니다. 사용자 고유의 데이터로 LLM(대규모 언어 모델)을 미세 조정하면 테넌트 전체에서 Copilot 응답의 정확도, 톤 및 관련성을 향상시킬 수 있습니다.

Copilot 조정 보존 및 검색을 넘어 강력한 엔터프라이즈 보안, 규정 준수, 거버넌스 및 관리 제어를 유지하면서 organization 데이터에 대한 테넌트별 LLM을 학습시킵니다. LLM은 문서 요약, 문서 작성, 전문가 답변, 스타일 편집, 문서 유효성 검사 및 최적화와 같은 특정 작업에 맞게 조정됩니다.

이 문서에서는 organization 대한 Microsoft 365 Copilot 작업별 에이전트를 조정하는 프로세스를 설명합니다.

중요

Microsoft 365 Copilot 조정 현재 초기 액세스 프로그램을 통해 제한된 고객 집합에서 사용할 수 있습니다. 프론티어 를 통한 액세스는 2026년 4월에 예정되어 있습니다. 기능 및 요구 사항은 변경될 수 있습니다.

미세 조정 프로세스 개요

Copilot 조정 – 모델 조정을 사용하여 organization AI 모델을 미세 조정하려면 다음 학습 및 튜닝 단계를 수행합니다.

  • 작업별 적응 - 학습을 위한 데이터를 준비합니다. 각 작업에는 미세 조정에 적합한 organization 데이터를 준비하기 위한 고유한 레시피가 있습니다.

  • 미세 조정 학습 - 각 작업에는 organization 데이터를 사용하여 최상의 결과를 위한 자체 레시피 및 미세 조정 기술이 있습니다. 이러한 기술에는 SFT(감독된 미세 조정), RL(보충 학습) 및 RFT(추론 미세 조정)가 포함됩니다. 이러한 조리법과 기술은 또한 시간이 지남에 따라 진화.

  • 평가 - 각 작업에는 organization 정의된 루브릭을 사용하여 출력을 평가하는 방법에 대한 고유한 레시피가 있습니다.

미세 조정 프로세스를 보여 주는 스크린샷

참고

조정하는 모델은 프라이빗입니다. 데이터는 다른 테넌트의 일반 모델을 학습시키는 데 사용되지 않습니다. 데이터의 모든 처리는 권한 있는 사용자만 학습하고 사용할 수 있는 테넌트에서 수행됩니다. 특정 개인(일반적으로 관리자)은 학습 프로세스를 제어할 수 있습니다.

작업별 적응

작업별 적응은 corpora를 수집한 후에 발생합니다. 이 적응에는 organization 콘텐츠를 원래 형식에서 한 줄당 하나의 문으로 일반 텍스트 형식으로 처리하는 작업이 포함됩니다.

감독된 미세 조정

감독된 미세 조정을 사용하여 레이블이 지정된 입력 출력 쌍에서 학습하여 미리 학습된 모델을 특정 작업 또는 조직 요구 사항에 맞게 조정합니다. 이 프로세스는 모델이 organization 선호하는 형식, 톤 및 규정 준수 요구 사항에 맞는 응답을 생성하는 방법을 학습하는 데 도움이 됩니다. 감독된 미세 조정:

  • 구조와 톤을 가르칩니다. 모델은 organization 목소리를 반영하는 방식으로 응답하는 방법을 배웁니다.
  • 작업 정확도 향상 - 고품질 예제를 학습하면 엔터프라이즈 사용 사례에 대해 모델이 더 안정적이 됩니다.
  • 규정 준수 지원 - 규정 언어 및 내부 분류를 인식하고 응답하도록 모델을 학습시킬 수 있습니다.

보충 학습

학습 후 기술로 보충 학습을 사용하여 ORGANIZATION 고유한 통신 스타일, 톤 및 도구 사용 기본 설정에 맞게 LLM을 조정합니다. 레이블이 지정된 예제에서 올바른 출력을 생성하는 모델을 가르치는 감독된 미세 조정과 달리, 보강 학습은 피드백 신호에서 학습하여 주관적인 자질을 최적화합니다.

보강 학습은 모델을 다음으로 수행하려는 경우에 유용합니다.

  • 특정 음성 톤(공감, 공식, 간결함)을 반영합니다.
  • 특정 도구(예: RAG 기반 검색보다 Microsoft Graph API)를 선호합니다.
  • 중요한 원본(예: ACL 태그가 지정된 문서)에서 콘텐츠를 검색하지 마세요.
  • 지속적으로 개선하기 위한 사용자 피드백에 대해 알아봅니다.

강화 학습은 인간 및 자동화된 피드백을 모두 사용하여 학습을 안내하는 조직 기본 설정에 따라 출력을 채점하여 모델을 구체화합니다. 예를 들어 Copilot가 휴가 정책 질문에 대한 응답에 대해 긍정적인 피드백을 받는 경우 모델은 해당 응답을 강화하고 유사한 컨텍스트에서 다시 사용합니다. 반대로, 톤 또는 콘텐츠에 대한 응답 플래그가 지정된 경우 모델은 해당 패턴을 방지하는 방법을 알아봅니다.

고급 적응 및 유지 관리

다양한 미세 조정 기술을 결합하여 organization 톤, 작업 완료 패턴 및 Microsoft Purview 데이터 거버넌스 요구 사항을 반영하는 모델을 만들 수 있습니다. 이러한 기본 모델은 organization 고유한 음성 및 운영 지식을 다음과 같이 적용합니다.

  • 여러 작업에서 일관된 톤과 서식을 유지합니다.
  • 문서 작성, 요약 및 질문에 대한 전문가 답변 제공과 같은 작업에 대한 도메인별 지식을 포함합니다.
  • 학습 및 유추 중에 액세스 제어 및 데이터 분류 정책을 준수합니다.
  • 내부 표준 및 사용자 기대치에 맞게 정확한 응답을 생성합니다.

모든 평가는 기밀이며 Microsoft의 책임 있는 AI 원칙에 따라 관리됩니다.

새 데이터를 사용할 수 있게 되면 에이전트를 계속 발전시키고 다음을 통해 모델을 조정할 수 있습니다.

  • 새 데이터 업로드.
  • 새로운 작업 유형 또는 규정 변경에 맞게 목표 및 평가 메트릭을 업데이트합니다.