학습 가능한 분류기를 사용하여 데이터 분류

완료됨

학습 가능한 분류자는 AI를 사용하여 미리 정의된 패턴 또는 키워드로 분류할 수 없는 데이터를 식별하고 분류합니다. 신용 카드 숫자 또는 사회 보장 번호와 같은 구조화된 데이터를 검색하는 중요한 정보 유형(SIT)과 달리 학습 가능한 분류자는 의미와 컨텍스트에 따라 콘텐츠를 분석합니다. 이렇게 하면 계약, 재무 보고서 또는 HR 레코드와 같은 비정형 데이터를 검색하는 데 유용합니다.

학습 가능한 분류자를 사용하는 이유는 무엇인가요?

많은 조직에는 예측 가능한 형식을 따르지 않는 중요한 콘텐츠가 있습니다. 학습 가능한 분류자는 다음을 지원합니다.

  • SIT가 검색할 수 없는 복잡한 데이터를 식별합니다.
  • 수동 분류에 대한 의존도를 줄입니다.
  • 보호해야 하는 콘텐츠를 자동으로 인식하여 규정 준수 및 보안을 개선합니다.

학습 가능한 분류자 유형

Microsoft Purview는 다음 두 가지 유형의 학습 가능한 분류자를 제공합니다.

  • 미리 학습된 분류자: 이력서, 소스 코드 및 불쾌한 언어와 같은 일반적인 콘텐츠 형식에 사용할 준비가 된 기본 제공 분류자입니다. Microsoft는 정확도를 향상시키기 위해 이러한 분류자를 정기적으로 업데이트합니다.
  • 사용자 지정 학습 가능한 분류자: 조직은 실제 예제를 사용하여 고유한 분류자를 학습하여 비즈니스 고유의 데이터를 검색할 수 있습니다. 사용자 지정 분류자는 시간이 지남에 따라 정확도를 향상시키기 위해 수동 학습 및 구체화가 필요합니다.

미리 학습된 분류자

미리 학습된 분류자는 조직에서 수동 설정 없이도 일반적인 형식의 비정형 데이터를 식별하는 데 도움이 됩니다. 기존 패턴 기반 메서드로 분류하기 어려운 콘텐츠 범주를 검색하도록 설계되었습니다.

Microsoft는 다음과 같은 특정 유형의 콘텐츠에 대해 미리 학습된 분류자를 제공합니다.

  • 불쾌한 언어: 욕설 또는 부적절한 콘텐츠를 검색합니다.
  • 이력서: HR 데이터 관리를 위한 지원자 이력서를 식별합니다.
  • 소스 코드: 독점 또는 중요한 코드를 추적하고 보호하는 데 도움이 됩니다.

미리 학습된 분류자는 AI 및 기계 학습을 사용하여 Microsoft에서 빌드하고 구체화합니다. 정확도를 개선하고 진화하는 콘텐츠 형식에 적응하기 위해 주기적으로 업데이트됩니다.

학습 가능한 분류자를 사용하는 위치

학습 가능한 분류자는 여러 Microsoft Purview 솔루션과 통합되어 조직에서 데이터를 효과적으로 분류하고 제어할 수 있습니다.

  • 자동 레이블 지정 정책: 분류자 결과에 따라 민감도 레이블을 자동으로 적용합니다.
  • 보존 정책: 사용되지 않는 데이터를 삭제하는 동안 중요한 콘텐츠를 식별하고 보존합니다.
  • DLP(데이터 손실 방지): 중요한 정보가 organization 외부에서 공유되지 않도록 방지합니다.
  • 통신 규정 준수: 부적절한 콘텐츠를 포함하여 정책 위반에 대한 메시지를 모니터링합니다.

학습 가능한 분류자의 제한 사항

학습 가능한 분류자는 강력한 AI 기반 분류를 제공하지만 몇 가지 제한 사항이 있습니다.

  • 정확도를 향상하려면 초기 학습 및 검토 프로세스가 필요합니다.
  • 암호화된 콘텐츠에서는 작동하지 않습니다.
  • 지원되는 위치(예: SharePoint, OneDrive 및 Exchange) 의 콘텐츠만 분류 합니다.

학습 가능한 분류자 및 중요한 정보 유형 비교

기능 학습 가능한 분류자 중요한 정보 유형(SIT)
검색 방법 AI 기반 분석 패턴 기반(예: regex, 키워드)
가장 적합합니다. 구조화되지 않은 데이터 구조적 데이터
학습이 필요하세요? 아니요(기본 제공 SID)
자동 레이블 지정, DLP 및 규정 준수와 함께 작동합니까?
암호화된 콘텐츠를 검색합니까? 아니요 아니요