사용자 지정 학습 가능 분류자 만들기

완료됨

조직은 예측 가능한 패턴을 따르지 않는 비정형 데이터를 분류해야 하는 경우가 많습니다. 사용자 지정 학습 가능한 분류자를 사용하면 AI 기반 분석을 위한 샘플 문서를 제공하여 Microsoft Purview에서 고유한 콘텐츠를 인식하도록 학습할 수 있습니다. 학습되면 분류자를 사용하여 콘텐츠의 레이블을 자동 지정하고, 보존 정책을 적용하고, 통신 규정 준수를 지원할 수 있습니다.

학습 가능한 분류자 작동 방식

학습 가능한 분류자는 기계 학습을 사용하여 미리 정의된 패턴이 아닌 의미와 컨텍스트를 기반으로 콘텐츠를 검색합니다. 키워드 또는 패턴 기반 검색을 사용하는 SIT(중요한 정보 유형)와 달리 학습 가능한 분류자는 실제 예제를 분석하여 분류 정확도를 향상시킵니다.

분류자를 만들려면 관련 문서와 관련이 없는 문서를 모두 포함하여 샘플 콘텐츠로 모델을 학습해야 합니다. 이 프로세스는 모델이 분류 범주에 속하는 데이터와 그렇지 않은 데이터를 구분하는 데 도움이 됩니다.

요구 사항

분류자를 만들기 전에 라이선스 및 권한 요구 사항을 충족하는지 확인합니다.

라이선싱

Microsoft Purview의 학습 가능한 분류자는 다음 라이선스 조합 중 하나가 필요합니다.

  • Microsoft 365 E5
  • Microsoft 365 E5 Compliance
  • Microsoft Purview Information Protection 및 거버넌스 추가 기능으로 Microsoft 365 E3

이러한 라이선스에는 학습 가능한 분류자, 정확한 데이터 일치, 명명된 엔터티 및 컨텍스트 분석과 같은 고급 분류 기능에 대한 액세스가 포함됩니다.

권한

학습 가능한 분류자를 만들고 관리하려면 사용자에게 적절한 역할 권한이 있어야 합니다. 필요한 권한은 분류자를 사용할 위치에 따라 달라집니다.

시나리오 필요한 역할 권한
보존 레이블 정책 레코드 관리, 보존 관리
민감도 레이블 정책 보안 관리자, 규정 준수 관리자, 규정 준수 데이터 관리자
통신 규정 준수 정책 내부 위험 관리 관리자, 감독 검토 관리자

중요

기본적으로 사용자 지정 분류자를 만드는 사용자만 해당 분류자가 수행한 예측을 학습하고 검토할 수 있습니다.

학습 가능한 분류자를 만드는 단계

분류자를 만드는 것은 학습, 테스트 및 게시를 포함하는 구조화된 프로세스를 따릅니다.

1단계: 학습 데이터 수집

분류자를 학습하려면 사용자가 수동으로 선택한 두 가지 샘플 데이터 집합 을 제공해야 합니다.

  • 긍정적인 예 (50~500개 항목): 범주에 속하는 문서입니다.
  • 부정적인 예 (150~1500개 항목): 범주에 속하지 않는 문서입니다.

학습 데이터가 다양하고 잘 선택될수록 분류자의 정확도가 높아집니다.

2단계: SharePoint에 데이터 저장

양수수 샘플을 별도의 SharePoint 폴더에 저장합니다. 이러한 폴더에 해당 학습 데이터만 포함되어 있는지 확인합니다.

참고

새 폴더를 만드는 경우 분류자 설정에서 사용하기 전에 인덱싱을 위해 1시간 이상 기다립니다.

3단계: 학습 가능한 분류자 만들기

  1. Microsoft Purview 포털에 로그인합니다.
  2. Information Protection>클래시피어>학습 가능한 분류자로 이동합니다.
  3. 학습 가능한 분류자 만들기를 선택합니다.
  4. 이름 및 설명을 입력합니다.
  5. 긍정적인 예제에 대한 SharePoint 폴더 URL을 추가하고 다음을 선택합니다.
  6. 음수 예제에 대한 SharePoint 폴더 URL을 추가하고 다음을 선택합니다.
  7. 설정을 검토하고 학습 가능한 분류자 만들기를 선택합니다.

만든 후 분류자는 학습 데이터 처리를 시작합니다. 처리 시간은 다양하지만 일반적으로 24시간 이내에 완료됩니다.

4단계: 분류자 검토 및 테스트

분류자에서 충분한 양의 샘플과 음수 샘플을 처리한 후에는 해당 예측을 확인해야 합니다.

  1. 분류자를 열고 결과를 검토합니다.
  2. 각 예측이 올바르거나 , 올바르지 않거나, 확실하지 않은지 확인합니다.
  3. Microsoft는 이 피드백을 사용하여 분류 모델을 구체화합니다.

최상의 정확도를 위해 200개 이상의 테스트 항목을 검토해야 합니다.

5단계: 분류자 게시

분류자의 정확도에 만족하는 경우:

  1. 사용할 게시를 선택합니다.
  2. 분류자는 다음을 사용할 수 있게 됩니다.
    • 자동 레이블 지정 정책
    • 보존 정책
    • DLP(데이터 손실 방지)
    • 커뮤니케이션 규정 준수

이제 분류자는 학습에 따라 콘텐츠를 자동으로 식별하고 분류합니다.

사용자 지정 학습 가능한 분류자를 위한 모범 사례

  • 다양한 학습 샘플 확인: 분류 범주를 정확하게 나타내는 다양한 콘텐츠를 포함합니다.
  • 과잉 맞춤 방지: 유사한 문서를 너무 많이 사용하지 마세요. 다양성은 분류자 유연성을 향상시킵니다.
  • 정기적으로 검토 및 재학습: 콘텐츠가 변경되면 분류자를 업데이트하여 정확도를 유지합니다.
  • 200개 이상의 테스트 항목 사용: 최상의 결과를 위해 50개 이상의 긍정적인 예제와 150개 이상의 부정적인 예제를 포함하는 테스트 샘플 집합에 200개 이상의 항목이 있습니다. 이렇게 하면 게시하기 전에 예측에 대한 신뢰도가 향상됩니다.