중요한 정보 유형에 대해 자세히 알아보기

조직에서 제어하는 중요한 항목을 식별하고 분류하는 것은 Information Protection 분야의 첫 번째 단계입니다. Microsoft Purview는 분류할 수 있도록 항목을 식별하는 세 가지 방법을 제공합니다.

  • 사용자가 수동으로
  • 중요한 정보 유형과 같은 자동화된 패턴 인식
  • 기계 학습

SIT(중요한 정보 유형)는 패턴 기반 분류자입니다. 사회 보장, 신용 카드 또는 은행 계좌 번호와 같은 중요한 정보를 감지하여 중요한 항목을 식별하고 모든 SIT의 전체 목록을 보려면 중요한 정보 유형 엔터티 정의를 참조하세요.

Microsoft는 미리 구성된 많은 SIT를 제공하거나 직접 만들 수 있습니다.

E5 고객이 아닌 경우 Microsoft Purview의 모든 프리미엄 기능을 무료로 사용해 볼 수 있습니다. 90일간의 Purview 솔루션 평가판을 사용하여 강력한 Purview 기능이 조직에서 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 어떻게 도움이 되는지 살펴봅니다. 이제 Microsoft Purview 규정 준수 포털 평가판 허브에서 시작합니다. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.

중요한 정보 유형은

중요한 정보 유형의 범주

기본 제공 중요한 정보 유형

이러한 SIT는 기본적으로 규정 준수 콘솔에 표시되는 Microsoft에 의해 생성됩니다. 이러한 SIT는 편집할 수 없지만 템플릿으로 사용하고 복사하여 사용자 지정 중요한 정보 유형을 만들 수 있습니다. 모든 SIT의 전체 목록에 대한 중요한 정보 유형 엔터티 정의를 참조하세요.

명명된 엔터티 중요한 정보 형식

명명된 엔터티 SID도 기본적으로 규정 준수 콘솔에 표시됩니다. 사람 이름, 물리적 주소 및 의료 약관을 검색합니다. 편집하거나 복사할 수 없습니다. 자세한 내용은 명명된 엔터티에 대해 알아봅니다 . 명명된 엔터티 SID는 다음 두 가지 형식으로 제공됩니다.

un-bundled

이러한 명명된 엔터티 SIT는 단일 국가 또는 단일 용어 클래스와 같이 더 좁은 포커스를 갖습니다. 검색 범위가 더 좁은 DLP 정책이 필요한 경우 사용합니다. 명명된 엔터티 SIT의 예제를 참조하세요.

번들

번들 명명된 엔터티 SIT는 모든 실제 주소와 같이 클래스에서 가능한 모든 일치 항목을 검색합니다. 중요한 항목을 검색하기 위한 DLP 정책에서 광범위한 조건으로 사용합니다. 명명된 엔터티 SIT의 예제를 참조하세요.

사용자 지정 중요한 정보 유형

미리 구성된 중요한 정보 유형이 요구 사항을 충족하지 않는 경우 완전히 정의한 사용자 지정 중요한 정보 유형을 만들거나 기본 제공 정보 중 하나를 복사하여 수정할 수 있습니다. 자세한 내용은 준수 센터에서 사용자 지정 중요한 정보 유형 만들기 를 참조하세요.

정확한 데이터가 중요한 정보 형식과 일치

모든 EDM 기반 SIT는 처음부터 만들어집니다. 이를 사용하여 중요한 정보의 데이터베이스에서 정의한 정확한 값이 있는 항목을 검색합니다. 자세한 내용은 정확한 데이터 일치 기반 중요한 정보 유형에 대해 알아봅니 다.

중요한 정보 유형의 기본 부분

모든 중요한 정보 유형 엔터티는 다음 필드에 의해 정의됩니다.

  • 이름: 중요한 정보 유형을 참조하는 방법
  • description: 중요한 정보 유형이 찾고 있는 내용을 설명합니다.
  • 패턴: 패턴은 중요한 정보 형식이 검색하는 항목을 정의합니다. 다음 구성 요소로 구성됩니다.
    • 기본 요소 – 중요한 정보 형식이 찾고 있는 기본 요소입니다. 체크섬 유효성 검사, 키워드 목록, 키워드 사전 또는 함수가 있거나 없는 정규식일 수 있습니다.
    • 지원 요소 – 일치의 신뢰도를 높이는 데 도움이 되는 증거를 지원하는 역할을 하는 요소입니다. 예를 들어 SSN 번호와 근접한 키워드 "SSN"입니다. 체크섬 유효성 검사, 키워드 목록, 키워드 사전이 있거나 없는 정규식일 수 있습니다.
    • 신뢰 수준 - 신뢰 수준(높음, 중간, 낮음)은 기본 요소와 함께 얼마나 많은 지원 증거가 검색되었는지를 반영합니다. 항목에 포함된 증거가 많을수록 일치하는 항목에 원하는 중요한 정보가 포함되어 있다는 신뢰도가 높아질 수 있습니다.
    • 근접성 – 기본 요소와 지원 요소 사이의 문자 수입니다.

확증적 증거 및 근접 창 다이어그램.

이 짧은 비디오에서 신뢰도 수준에 대해 자세히 알아보세요.

중요한 정보 유형 예제

아르헨티나 국가 ID(DNI) 번호

형식

마침표로 구분된 8자리 숫자

패턴

8자리 숫자:

  • 두 자리 숫자
  • 마침표
  • 3자리 숫자
  • 마침표
  • 3자리 숫자

체크섬

아니오

정의

DLP 정책은 다음과 같은 경우 이러한 유형의 중요한 정보가 300자 이내의 근접성으로 검색되었음을 중간 정도 신뢰합니다.

  • 정규식 Regex_argentina_national_id 패턴과 일치하는 콘텐츠를 찾습니다.
  • Keyword_argentina_national_id 키워드를 찾습니다.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

키워드

Keyword_argentina_national_id

  • Argentina National Identity number
  • ID
  • ID 국가 ID 카드
  • Dni
  • NIC National Registry of Persons
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

신뢰도 수준에 대한 자세한 정보

중요한 정보 형식 엔터티 정의에서 신뢰도 수준은 기본 요소 외에 검색되는 지원 증거의 양을 반영합니다. 항목에 포함된 증거가 많을수록 일치하는 항목에 원하는 중요한 정보가 포함되어 있다는 신뢰도가 높아질 수 있습니다. 예를 들어 신뢰 수준이 높은 일치 항목은 기본 요소와 가까운 곳에서 더 많은 지원 증거를 포함하는 반면, 신뢰 수준이 낮은 일치 항목에는 근접한 지원 증거가 거의 또는 전혀 포함되지 않습니다.

신뢰 수준이 높을수록 가양성이 가장 적지만 거짓 부정이 더 많이 발생할 수 있습니다. 신뢰 수준이 낮거나 중간이면 더 많은 가양성만 반환되지만 거짓 부정은 거의 없습니다.

  • 신뢰도가 낮음: 일치하는 항목에는 가장 적은 거짓 부정이 포함되지만 가장 가양성도 포함됩니다. 신뢰도가 낮을수록 모든 낮음, 보통 및 높은 신뢰도 일치 항목이 반환됩니다. 낮은 신뢰도 수준에는 65의 값이 있습니다.
  • 중간 신뢰도: 일치하는 항목에는 평균 양의 가양성 및 거짓 부정이 포함됩니다. 중간 신뢰도는 모든 중간 및 높은 신뢰도 일치를 반환합니다. 중간 신뢰도 수준은 75입니다.
  • 높은 신뢰도: 일치하는 항목에는 가양성이 가장 적지만 가장 거짓 부정이 포함됩니다. 높은 신뢰도는 높은 신뢰도 일치 항목만 반환하고 값은 85입니다.

개수가 5~10개인 높은 신뢰도 수준 패턴과 더 높은 개수의 낮은 신뢰도 패턴을 사용해야 합니다( 예: 20개 이상).

참고

숫자 기반 신뢰 수준(정확도라고도 함)을 사용하여 정의된 기존 정책 또는 SID(사용자 지정 중요한 정보 유형)가 있는 경우 세 개의 개별 신뢰도 수준에 자동으로 매핑됩니다. Security @ Compliance Center UI에서 낮은 신뢰도, 중간 신뢰도 및 높은 신뢰도

  • 신뢰 수준이 76에서 100 사이인 최소 정확도 또는 사용자 지정 SIT 패턴이 있는 모든 정책은 높은 신뢰도에 매핑됩니다.
  • 신뢰 수준이 66에서 75 사이인 최소 정확도 또는 사용자 지정 SIT 패턴이 있는 모든 정책은 중간 신뢰도에 매핑됩니다.
  • 신뢰 수준이 65보다 작거나 같은 최소 정확도 또는 사용자 지정 SIT 패턴의 모든 정책은 낮은 신뢰도에 매핑됩니다.

사용자 지정 중요한 정보 유형 만들기

여러 옵션 중에서 선택하여 규정 준수 센터에서 사용자 지정 중요한 정보 유형을 만들 수 있습니다.

참고

향상된 신뢰 수준은 Microsoft Purview 데이터 손실 방지 서비스, 정보 보호, 통신 규정 준수, 데이터 수명 주기 관리 및 레코드 관리 내에서 즉시 사용할 수 있습니다. 이제 Information Protection 다음의 더블 바이트 문자 집합 언어를 지원합니다.

  • 중국어(간체)
  • 중국어(번체)
  • 한국어
  • 일본어

이 지원은 중요한 정보 유형에 대해 사용할 수 있습니다. 자세한 내용은 더블 바이트 문자 집합 릴리스 정보에 대한 정보 보호 지원을 참조하세요.

중국어/일본어 문자와 단일 바이트 문자가 포함된 패턴을 검색하거나 중국어/일본어 및 영어가 포함된 패턴을 검색하려면 키워드 또는 regex의 두 가지 변형을 정의합니다.

  • 예를 들어 "机密的document"와 같은 키워드를 검색하려면 해당 키워드의 두 변형을 사용합니다. 일본어와 영어 텍스트 사이에 공백이 있고 일본어 텍스트와 영어 텍스트 사이에 공백이 없는 다른 텍스트가 있습니다. 따라서 SIT에 추가할 키워드는 "机密的 document" 및 "机密的document"여야 합니다. 마찬가지로 "東京オリンピック2020"라는 구를 검색하려면 두 가지 변형("東京オリンピック 2020" 및 "東京オリンピック2020")을 사용해야 합니다.

중국어/일본어/이중 바이트 문자와 함께 키워드/구 목록에 중국어/일본어가 아닌 단어도 포함된 경우(예: 영어만 해당) 두 개의 사전/키워드 목록을 만들어야 합니다. 하나는 중국어/일본어/더블 바이트 문자가 포함된 키워드용이고 다른 하나는 영어 전용입니다.

  • 예를 들어 "매우 기밀", "機密性れい" 및 "机密的document"라는 세 구가 포함된 키워드 사전/목록을 만들려면 두 개의 키워드 목록을 만들어야 합니다.
    1. 극비
    2. 機密性が高い, 机密的문서 및 机密的 문서

더블 바이트 하이픈 또는 더블 바이트 마침표로 regex를 만드는 동안 regex에서 하이픈이나 마침표가 이스케이프되는 것처럼 두 문자를 모두 이스케이프해야 합니다. 참조를 위한 샘플 regex는 다음과 같습니다.

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

키워드 목록에서 단어 일치 대신 문자열 일치를 사용하는 것이 좋습니다.

중요한 정보 유형에서 일치/일치 정확도 피드백 제공

SIT가 중요한 정보 유형콘텐츠 탐색기에서 갖는 일치 항목 수를 볼 수 있습니다. 항목이 실제로 일치하는지 여부에 대한 피드백을 제공하고 매치가 아닌 일치 피드백 메커니즘 사용하고 해당 피드백을 사용하여 SIT를 튜닝할 수도 있습니다. 자세한 내용은 분류자 정확도 증가(미리 보기) 를 참조하세요.

자세한 내용은

중요한 정보 유형을 사용하여 데이터 개인 정보 보호 규정을 준수하는 방법을 알아보려면 Microsoft 365(aka.ms/m365dataprivacy)를 사용하여 데이터 개인 정보 보호에 대한 정보 보호 배포 를 참조하세요.