다음을 통해 공유


중요한 정보 유형에 대해 자세히 알아보기

organization 제어하는 중요한 항목을 식별하고 분류하는 것은 Information Protection 분야의 첫 번째 단계입니다. Microsoft Purview는 분류할 수 있도록 항목을 식별하는 세 가지 방법을 제공합니다.

  • 수동, 사용자별
  • 중요한 정보 유형과 마찬가지로 자동화된 패턴 인식을 통해
  • 기계 학습을 통해

중요한 정보 유형(SIT)은 패턴 기반 분류자입니다. 사회 보장, 신용 카드 또는 은행 계좌 번호와 같은 중요한 정보를 감지하여 중요한 항목을 식별합니다. 모든 SID의 전체 목록은 중요한 정보 유형 엔터티 정의를 참조하세요.

Microsoft는 미리 구성된 많은 SID를 제공하거나 직접 만들 수 있습니다.

E5 고객이 아닌 경우 90일 Microsoft Purview 솔루션 평가판을 사용하여 조직이 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 도움이 되는 추가 Purview 기능을 살펴보세요. Microsoft Purview 규정 준수 포털 평가판 허브에서 지금 시작하세요. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.

중요한 정보 유형은 에서 사용됩니다.

중요한 정보 유형의 범주

중요한 정보 유형에 기본 제공

Microsoft는 이러한 SID를 만들었으며 기본적으로 규정 준수 콘솔에 표시됩니다. 이러한 SID는 편집할 수 없지만 복사하여 사용자 지정 중요한 정보 유형을 만들어 템플릿으로 사용할 수 있습니다. 모든 SIT의 전체 목록은 중요한 정보 형식 엔터티 정의를 참조하세요.

명명된 엔터티 중요한 정보 유형

명명된 엔터티 SID도 기본적으로 규정 준수 콘솔에 표시됩니다. 그들은 사람 이름, 물리적 주소 및 의료 사용 약관을 감지합니다. 편집하거나 복사할 수 없습니다. 자세한 내용은 명명된 엔터티에 대해 알아보기를 참조하세요.

명명된 엔터티 SID는 다음 두 가지 형식으로 제공됩니다.

un-bundled

이러한 명명된 엔터티 SID는 단일 국가 또는 지역 또는 단일 용어 클래스와 같이 포커스가 좁습니다. 더 좁은 검색 scope DLP(데이터 손실 방지) 정책이 필요한 경우 사용합니다. 명명된 엔터티 SID의 예제를 참조하세요.

번들

번들로 명명된 엔터티 SIT는 모든 실제 주소와 같은 클래스에서 가능한 모든 일치 항목을 검색합니다. DLP 정책에서 중요한 항목을 검색하기 위한 광범위한 조건으로 사용합니다. 명명된 엔터티 SID의 예제를 참조하세요.

사용자 지정 중요한 정보 유형

미리 구성된 중요한 정보 유형이 요구 사항을 충족하지 않는 경우 완전히 정의한 사용자 지정 중요한 정보 유형을 만들거나 기본 제공 정보 중 하나를 복사하여 수정할 수 있습니다. 자세한 내용은 다음을 참조하십시오.

Microsoft Purview 규정 준수 포털 사용자 지정 중요한 정보 형식을 Create.

정확한 데이터는 중요한 정보 형식과 일치합니다.

모든 정확한 데이터 일치(EDM) 기반 SID가 처음부터 만들어집니다. 이를 사용하여 중요한 정보의 데이터베이스에서 정의하는 정확한 값이 있는 항목을 검색합니다. 자세한 내용은 정확한 데이터 일치 기반 중요한 정보 유형에 대해 알아보기를 참조하세요.

중요한 정보 형식의 기본 부분

SIT(모든 중요한 정보 유형) 엔터티는 다음 필드로 구성됩니다.

  • 이름: 중요한 정보 유형을 참조하는 방법을 나타냅니다.
  • 설명: 중요한 정보 유형이 찾고 있는 내용에 대한 설명입니다.
  • 패턴: SIT에서 검색하는 항목을 정의합니다. 기본 요소, 지원 요소, 신뢰도 수준 및 근접성 구성 요소로 구성됩니다.

다음 표에서는 중요한 정보 유형을 정의하는 데 사용되는 패턴의 각 구성 요소에 대해 설명합니다.

패턴 구성 요소 설명
Primary 요소 중요한 정보 유형이 찾고 있는 기본 요소입니다. 체크섬 유효성 검사, 키워드(keyword) 목록, 키워드(keyword)사전 또는 함수가 있거나 없는 정규식일 수 있습니다. 이러한 각 유형의 요소는 기존 SID 목록에서 선택하거나 관리자 권한이 있는 사용자가 사용자 지정 정의할 수 있습니다. 요소가 정의되면 기본 제공 요소와 함께 기존 요소 목록에 표시됩니다.
지원 요소 확증적 증거 역할을 하는 요소입니다. 포함된 경우 지원 요소는 검색된 일치 항목의 정확도와 관련하여 신뢰도 수준을 높이는 데 도움이 됩니다. 예를 들어 기본 요소가 (9자리 숫자로 구성됨)로 SSN 정의되고 키워드(keyword) SSN(사회 보장 번호)이 에 근접SSN한 경우 지원 요소로 사용되는 경우 검색된 가 실제로 사회 보장 번호라는 SSN 신뢰도는 SSN(사회 보장 번호) 키워드(keyword) 없는 경우보다 높습니다.

지원 요소는 정규식(체크섬 유효성 검사 여부), 키워드(keyword) 목록 또는 키워드(keyword) 사전일 수 있습니다.
신뢰 수준 검색된 일치 항목과 관련하여 높음, 중간 및 낮음의 세 가지 신뢰 수준이 있습니다. 신뢰도 수준은 기본 요소와 함께 검색되는 지원 증거의 양을 반영합니다. 검색된 항목에 포함된 증거가 많을수록 일치하는 항목에 찾고 있는 중요한 정보가 포함되어 있다는 신뢰도가 높아질 수 있습니다. 신뢰도 수준에 대한 자세한 내용은 이 문서의 뒷부분에 포함된 비디오를 참조하세요.
근접 지원 요소가 기본 요소와 얼마나 가까운지를 지정합니다( 둘 사이의 문자 수).

근접성 이해

다음 다이어그램에서는 근접과 관련하여 일치 검색이 작동하는 방식을 보여 줍니다. 이 예제에서 기본 요소는 필드이고 SSN SIT 정의에서는 값의 SSN 각 instance 다음 요소 중 하나 이상에 대해 지정된 근접성 내에 있어야 합니다.

  • AccountNumber
  • Name
  • DateOfBirth

다이어그램에서 검사되는 데이터에는 , , SSN3SSN2SSN4필드SSN1의 세 가지 인스턴스가 SSN 포함됩니다.

확증 증거 및 근접 창 다이어그램 .

근접의 작동 방식을 이해하려면 먼저 몇 가지 샘플 검색 조건을 살펴보겠습니다. 여기서는 9자리의 사회 보장 번호를 검색하려고 했습니다. 검색 조건을 사용하려면 250자(근접) 내에 나타나는 9자리 정규식(기본 요소)을 지원 증거(, Name및 필드 중AccountNumber)와 DateOfBirth 함께 발견해야 합니다.

다이어그램에 설명된 대로 기본 요소 SSN1 만 있고 SSN4 방금 설명한 검색 조건을 충족합니다. 좀 더 자세히 살펴보겠습니다.

  • SSN1DateOfBirth 경우 값은 지정된 근접 창 250자 내에 있으므로 일치 항목이 검색됩니다.
  • SSN3SSN2 경우 모두 기본 요소의 250자 내에서 지원 요소가 발생하지 않으므로 해당 값이 일치 항목으로 검색되지 않습니다. 그러나 다이어그램에서 에 대한 SSN2 근접 창을 보면 다음과 같은 SSN2메시지가 표시될 수 있습니다. 근접 창이 SSN2 요소로 Name 확장되지 않나요? 이것은 좋은 질문입니다. 대답은 : 정답이 아닙니다. 근접 창 이 값으로Name 확장되지만 전체 값은 포함되지 않으므로 패턴이 일치하지 않습니다.
  • 마지막으로 의 SSN4경우 근접 창 Name 내에 및 DateOfBirth의 두 가지 지원 요소가 있으므로 이 패턴도 일치합니다.

이 짧은 비디오에서 신뢰도 수준에 대해 자세히 알아보세요.

중요한 정보 유형 예제

아르헨티나 국가 ID(DNI) 번호

형식

마침표로 구분된 8자리 숫자

패턴

8자리 숫자:

  • 두 자리 숫자
  • 마침표
  • 3자리 숫자
  • 마침표
  • 3자리 숫자
체크섬

아니오

정의

DLP 정책은 250자의 근접성 내에서 이러한 유형의 중요한 정보를 감지했다는 중간 신뢰도가 있습니다.

  • 정규식 Regex_argentina_national_id 패턴과 일치하는 콘텐츠를 찾습니다.
  • Keyword_argentina_national_id 키워드(keyword) 있습니다.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>
키워드
Keyword_argentina_national_id
  • Argentina National Identity number
  • ID
  • ID 국가 ID 카드
  • Dni
  • NIC(National Registry of Persons)
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

신뢰도 수준에 대한 자세한 정보

중요한 정보 형식 엔터티 정의에서 신뢰도 수준은 기본 요소 외에도 얼마나 많은 지원 증거가 검색되는지를 반영합니다. 항목에 포함된 증거가 많을수록 일치하는 항목에 찾고 있는 중요한 정보가 포함되어 있다는 신뢰도가 높아질 수 있습니다. 예를 들어 신뢰도가 높은 일치 항목은 주 요소와 가까운 곳에서 더 많은 지원 증거를 포함하는 반면 신뢰도가 낮은 일치 항목에는 근접한 지원 증거가 거의 또는 전혀 포함되지 않습니다.

신뢰 수준이 높을수록 가양성이 가장 적지만 더 많은 거짓 부정이 발생할 수 있습니다. 낮거나 중간 신뢰도 수준은 더 많은 가양성만 반환하지만 거짓 부정은 거의 없습니다.

  • 신뢰도가 낮음: 일치하는 항목에는 가음성 값이 가장 적지만 가양성 항목이 가장 적습니다. 신뢰도가 낮을수록 모든 낮음, 중간 및 높은 신뢰도 일치 항목이 반환됩니다. 낮은 신뢰도 수준은 65입니다.
  • 중간 신뢰도: 일치하는 항목에는 평균 가양성 및 가음성 수가 포함됩니다. 중간 신뢰도는 모든 중간 및 높은 신뢰도 일치를 반환합니다. 중간 신뢰도 수준은 75입니다.
  • 높은 신뢰도: 일치하는 항목에는 가양성이 가장 적지만 가장 거짓 부정이 포함됩니다. 높은 신뢰도는 높은 신뢰도 일치 항목만 반환하며 값은 85입니다.

개수가 5~10인 높은 신뢰도 패턴과 개수가 높은 낮은 신뢰도 패턴을 사용해야 합니다(예: 20개 이상).

참고

숫자 기반 신뢰 수준( 정확도라고도 함)을 사용하여 정의된 기존 정책 또는 SID(사용자 지정 중요한 정보 유형)가 있는 경우 세 개의 개별 신뢰도 수준에 자동으로 매핑됩니다. 보안 @ 규정 준수 센터 UI 전체에서 낮은 신뢰도, 중간 신뢰도 및 높은 신뢰도

  • 신뢰 수준이 76에서 100 사이인 최소 정확도 또는 사용자 지정 SIT 패턴이 있는 모든 정책은 높은 신뢰도에 매핑됩니다.
  • 신뢰 수준이 66~75인 최소 정확도 또는 사용자 지정 SIT 패턴이 있는 모든 정책은 중간 신뢰도에 매핑됩니다.
  • 신뢰 수준이 65보다 작거나 같은 최소 정확도 또는 사용자 지정 SIT 패턴이 있는 모든 정책은 낮은 신뢰도에 매핑됩니다.

사용자 지정 중요한 정보 유형 만들기

여러 옵션 중에서 선택하여 규정 준수 포털에서 사용자 지정 중요한 정보 유형을 만들 수 있습니다.

참고

향상된 신뢰 수준은 Microsoft Purview 데이터 손실 방지 서비스, 정보 보호, 통신 규정 준수, 데이터 수명 주기 관리 및 레코드 관리 내에서 즉시 사용할 수 있습니다. 이제 Information Protection 다음을 위해 이중 바이트 문자 집합 언어를 지원합니다.

  • 중국어(간체)
  • 중국어(번체)
  • 한국어
  • 일본어

이 지원은 중요한 정보 유형에 대해 사용할 수 있습니다. 자세한 내용은 더블 바이트 문자 집합 릴리스 정보에 대한 정보 보호 지원을 참조하세요.

중국어/일본어 문자와 단일 바이트 문자가 포함된 패턴을 검색하거나 중국어/일본어 및 영어가 포함된 패턴을 검색하려면 키워드 또는 regex의 두 가지 변형을 정의합니다.

  • 예를 들어 "机密的document"와 같은 키워드를 검색하려면 해당 키워드의 두 변형을 사용합니다. 일본어와 영어 텍스트 사이에 공백이 있고 일본어 텍스트와 영어 텍스트 사이에 공백이 없는 다른 텍스트가 있습니다. 따라서 SIT에 추가할 키워드는 "机密的 document" 및 "机密的document"여야 합니다. 마찬가지로 "東京オリンピック2020"라는 구를 검색하려면 두 가지 변형("東京オリンピック 2020" 및 "東京オリンピック2020")을 사용해야 합니다.

중국어/일본어/더블 바이트 문자와 함께 키워드/구 목록에 중국어/일본어가 아닌 단어도 포함된 경우(instance, 영어에만 해당) 두 개의 사전/키워드(keyword) 목록을 만들어야 합니다. 하나는 중국어/일본어/더블 바이트 문자가 포함된 키워드에 대한 키워드이고 다른 하나는 영어 전용 키워드용입니다.

  • 예를 들어 "매우 기밀", "機密性れる" 및 "机密的document"라는 세 구가 있는 키워드(keyword) 사전/목록을 만들려면 두 개의 키워드(keyword) 목록을 만들어야 합니다.
    1. 극비
    2. 機密性が高い, 机密的문서 및 机密的 문서

더블 바이트 하이픈 또는 더블 바이트 마침표로 regex를 만드는 동안 하이픈 또는 마침표에서 이스케이프하는 것과 같은 두 문자를 모두 이스케이프해야 합니다. 참조를 위한 샘플 regex는 다음과 같습니다.

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

키워드(keyword) 목록에서 단어 일치 대신 문자열 일치를 사용하는 것이 좋습니다.

중요한 정보 유형 테스트

샘플 파일을 업로드하여 SIT를 테스트할 수 있습니다. 테스트 결과에는 각 신뢰도 수준에 대한 일치 항목 수가 표시됩니다. 기본 제공 SIT, 사용자 지정 SID, 학습 가능한 분류자 및 정확한 데이터 일치를 테스트할 수 있습니다.

기본 제공 및 사용자 지정 중요한 정보 유형 테스트

정확한 데이터가 중요한 정보 형식과 일치하는지 테스트합니다.

중요한 정보 유형에서 일치/일치 정확도 피드백 제공

SIT의 일치 횟수는 중요한 정보 유형콘텐츠 탐색기에서 볼 수 있습니다. 항목이 실제로 일치하는지 여부에 대한 피드백을 제공하고 일치, 일치하지 않음 피드백 메커니즘을 사용하고 해당 피드백을 사용하여 SIT를 튜닝할 수도 있습니다. 자세한 내용은 분류자 정확도 향상을 참조하세요.

자세한 내용은

중요한 정보 유형을 사용하여 데이터 개인 정보 보호 규정을 준수하는 방법을 알아보려면 Microsoft 365(aka.ms/m365dataprivacy)를 사용하여 데이터 개인 정보 보호에 대한 정보 보호 배포 를 참조하세요.