다음을 통해 공유


정확한 데이터 일치 중요한 정보 유형/규칙 패키지 만들기

E5 고객이 아닌 경우 90일 Microsoft Purview 솔루션 평가판을 사용하여 조직이 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 도움이 되는 추가 Purview 기능을 살펴보세요. Microsoft Purview 규정 준수 포털 평가판 허브에서 지금 시작하세요. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.

적용 대상

Microsoft Purview 규정 준수 포털에서 정확한 데이터 일치 스키마 및 SIT 패턴 도구 사용을 사용하여 EDM(정확한 데이터 일치) SIT(SIT)를 만들거나 규칙 패키지를 XML 파일로 수동으로 만들 수 있습니다. 또한 한 메서드를 사용하여 스키마를 만들고 나중에 다른 메서드를 사용하여 편집하여 두 메서드를 결합할 수도 있습니다.

EDM 기반 SITS 또는 해당 구현에 익숙하지 않은 경우 다음 사항을 숙지해야 합니다.

필수 구성 요소

다음 문서의 단계를 수행합니다.

  1. 정확한 데이터 일치 기반 중요한 정보 유형에 대한 원본 데이터 내보내기
  2. 정확한 데이터 일치 기반 중요한 정보 유형에 대한 스키마 만들기
  3. 정확한 데이터 일치 기반 중요한 정보 유형에 대해 중요한 정보 원본 테이블을 해시하고 업로드합니다.
  • PowerShell을 통해 도구 또는 규칙 패키지 XML 파일을 사용하여 EDM SIT를 만들든 관계없이 UI를 통해 사용자 지정 SIT를 만들고 테스트하고 배포할 수 있는 전역 관리자 또는 규정 준수 관리자 권한이 있어야 합니다. Office 365 관리자 역할 정보를 참조하세요.

중요

사용 권한이 가장 적은 역할을 사용하는 것이 좋습니다. 이렇게 하면 조직의 보안을 개선하는 데 도움이 됩니다. 전역 관리자는 권한이 낮은 역할을 사용할 수 없는 시나리오에서만 사용해야 하는 권한이 높은 역할입니다.

  • 기본 요소 SIT로 사용할 기본 제공 SID 중 하나를 식별합니다.
    • 기본 제공 SIT가 선택한 열의 데이터와 일치하지 않는 경우 사용자 지정 SIT를 만들어야 합니다.
    • 스키마의 기본 요소 열에 대해 무시된 구분 기호 옵션을 선택한 경우 만든 사용자 지정 SIT가 선택한 구분 기호의 유무에 관계없이 데이터와 일치하는지 확인합니다.
    • 기본 제공 SIT를 사용하는 경우 선택하려는 문자열을 정확히 감지하고 주변 문자를 포함하거나 중요한 정보 테이블에 저장된 대로 문자열의 유효한 부분을 제외하지 않도록 합니다.

중요한 정보 유형 엔터티 정의 및사용자 지정 중요한 정보 유형 만들기를 참조하세요.

정확한 데이터 일치 스키마 및 SIT 패턴 도구 사용

이 도구를 사용하여 SIT 파일을 만들어 프로세스를 간소화할 수 있습니다.

EDM SIT는 하나 이상의 패턴으로 구성됩니다. 각 패턴은 문서 또는 전자 메일(증거)에서 중요한 콘텐츠를 식별하는 데 사용할 스키마의 필드 조합을 설명합니다.

사용 중인 포털에 해당하는 탭을 선택합니다. Microsoft Purview 포털에 대해 자세히 알아보려면 Microsoft Purview 포털을 참조하세요. 규정 준수 포털에 대한 자세한 내용은 Microsoft Purview 규정 준수 포털을 참조하세요.

  1. Microsoft Purview 포털>Information Protection>Classifiers>EDM 분류자에 로그인합니다.

    1. 새 EDM 환경 토글을 기로 설정
  2. EDM 중요한 정보 유형을 선택하고 EDM 중요한 정보 유형 만들기를 선택하여 중요한 정보 유형 구성 도구를 엽니다.

  3. 기존 EDM 스키마 선택을 선택하고 정확한 데이터 일치 기반 중요한 정보 유형에 대한 스키마 만들기에서 만든 스키마를 선택합니다. 추가를 선택합니다.

  4. 다음을 선택하고 패턴 생성을 선택합니다.

  5. 신뢰 수준기본 요소를 선택합니다. 신뢰도 수준에 대한 자세한 내용은 중요한 정보 유형에 대해 알아보기를 참조하세요.

  6. Primary 요소의 중요한 정보 유형을 선택하여 문서의 텍스트를 기본 요소 필드의 모든 값과 비교할 텍스트를 정의합니다. 사용 가능한 중요한 정보 유형에 대한 자세한 내용은 SIT 엔터티 정의를 참조하세요.

    중요

    찾으려는 콘텐츠의 형식과 밀접하게 일치하는 SIT를 선택합니다. 모든 텍스트 문자열과 일치하는 콘텐츠 또는 모든 숫자와 같은 불필요한 콘텐츠와 일치하는 SIT를 선택하면 시스템에서 과도한 부하가 발생하여 중요한 정보가 검색되지 않은 상태로 남을 수 있습니다.

  7. 지원 요소 및 일치 옵션을 선택합니다.

  8. 완료를 선택합니다.

  9. EDM SIT에 대한 추가 패턴을 만들려면 패턴 만들기 를 선택합니다.

  10. 다음을 선택합니다.

  11. 원하는 권장 신뢰도 수준문자 근접성을 선택합니다. 이는 전체 EDM SIT의 기본값입니다. (문자 근접에 대한 자세한 내용은 근접성 이해를 참조하세요.) 다음을 선택합니다.

  12. 다음을 선택하고 이름관리자 설명을 입력합니다.

    스키마 파일을 만들 때 열 머리글(데이터 필드)은 다음 명명 요구 사항을 준수해야 합니다.
    - 문자로 시작해야 하며 3자 이상의 영숫자로 구성되어야 합니다.
    - 영숫자 문자만 포함해야 합니다.

  13. 검토하고 제출을 선택합니다.

SIT 패턴 편집 또는 삭제

사용 중인 포털에 해당하는 탭을 선택합니다. Microsoft Purview 포털에 대해 자세히 알아보려면 Microsoft Purview 포털을 참조하세요. 규정 준수 포털에 대한 자세한 내용은 Microsoft Purview 규정 준수 포털을 참조하세요.

  1. Microsoft Purview 포털>Information Protection>Classifiers>EDM 분류자에 로그인합니다.

    1. 새 EDM 환경 토글을 기로 설정
  2. EDM 중요한 정보 유형을 선택합니다.

  3. 편집하려는 EDM SIT를 선택합니다.

  4. 플라이아웃에서 EDM 중요한 정보 유형 편집 또는 EDM 중요한 정보 유형 삭제 를 선택합니다.

  5. 편집 에 대한 절차는 정확한 데이터 일치 스키마 및 SIT 패턴 도구 사용을 참조하세요.

특정 유형의 데이터 작업

성능상의 이유로 불필요한 일치 횟수를 최소화하는 패턴을 사용하는 것이 중요합니다. 예를 들어 정규식에 따라 SIT를 사용할 수 있습니다.

\b\w*\b

이는 문서 또는 전자 메일의 모든 개별 단어 또는 번호와 일치합니다. 이로 인해 서비스가 일치 항목으로 오버로드되고 실제 일치 항목 검색이 누락됩니다. 보다 정확한 패턴을 사용하면 이러한 상황을 방지할 수 있습니다. 다음은 몇 가지 일반적인 데이터 형식에 적합한 구성을 식별하기 위한 몇 가지 권장 사항입니다.

Email 주소: Email 주소는 쉽게 식별할 수 있지만 중요한 콘텐츠에서 매우 일반적이기 때문에 기본 필드로 사용하는 경우 시스템에 상당한 부하가 발생할 수 있습니다. 전자 메일 추가기를 보조 증명 정보로만 사용합니다. 기본 증거로 사용해야 하는 경우 사용자 지정 SIT를 정의할 때 논리를 사용하여 전자 메일 주소가 로 From 사용되는 항목 또는 To 전자 메일의 필드를 제외합니다. 또한 논리를 사용하여 회사의 도메인에서 전자 메일 주소를 제외하여 일치해야 하는 불필요한 문자열 수를 줄입니다.

전화 번호: 전화 번호는 국가/지역 접두사, 지역 코드 및 구분 기호를 포함하거나 제외하는 다양한 형식으로 제공됩니다. 부하를 최소한으로 유지하면서 가음성을 줄이려면 보조 요소로만 사용하고, 괄호 및 대시와 같은 모든 가능한 구분 기호를 제외하고, 중요한 데이터 테이블에 항상 전화 번호에 있는 부분만 포함합니다.

사람 이름: 일반 단어와 구별하기 어렵기 때문에 정규식을 기반으로 하는 SIT를 이 EDM 형식의 분류 요소로 사용하는 경우 사용자의 이름을 기본 요소로 사용하지 마세요.

처리할 많은 양의 일치 항목을 생성할 수 있는 특정 패턴(예: 프로젝트 코드 이름)으로 식별하기 어려운 기본 요소를 사용해야 하는 경우 EDM 형식의 분류 요소로 사용하는 SIT에 키워드를 포함해야 합니다. 예를 들어 일반 단어인 프로젝트 코드 이름을 사용하는 경우 EDM 형식의 분류 요소로 사용하는 SIT의 프로젝트 이름 정규식 기반 패턴에 근접한 추가 증명 정보로 단어를 project 사용할 수 있습니다. 또는 일반 사전을 기반으로 SIT를 EDM SIT의 분류 요소로 사용하는 것이 좋습니다.

숫자 문자열을 일치시키려면 숫자 수 또는 시작 숫자와 같은 허용되는 숫자 범위를 지정합니다(알려진 경우). 비교적 유연한 숫자 범위와 일치해야 하는 경우 기본 SIT에서 키워드를 사용하여 일치 항목 수를 줄일 수 있습니다. 예를 들어 7-11자리 숫자로 구성된 계정 번호를 일치시키려면 필요한 추가 증명 정보로 SIT에 , customeracct. 라는 단어를 account추가합니다. 이렇게 하면 처리할 수 있는 EDM 일치의 제한을 초과할 수 있는 불필요한 일치가 발생할 가능성이 줄어듭니다.

기본 요소로 사용해야 하는 필드가 많은 수의 일치 항목이 발생할 수 있는 간단한 패턴을 따르고 SIT에 키워드의 존재를 추가 증명으로 추가할 수 없는 경우 해당 패턴의 최소 발생 수를 요구할 수 있습니다. 예를 들어 다음 방법으로 정의된 사용자 지정 SIT를 사용하여 중요한 콘텐츠에서 일치시킬 잠재적인 5자리 숫자를 둘러싼 29개 이상의 다른 5자리 숫자를 검색할 수 있습니다.

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

경우에 따라 특정 계정을 식별하거나 기록상의 이유로 표준화된 패턴을 따르지 않는 ID 번호를 기록해야 할 수 있습니다. 예를 들어 는 Medical Record Numbers 동일한 organization 내의 문자와 숫자의 다양한 순열로 구성될 수 있습니다. 처음에는 패턴을 식별하기 어려울 수 있지만 자세히 검사하면 잘못된 일치 항목의 과도한 수를 유발하지 않고 모든 유효한 값을 설명하는 패턴을 좁힐 수 있는 경우가 많습니다. 예를 들어 "모든 MRN은 길이가 7자 이상이고, 숫자 숫자가 두 개 이상 있고, 문자가 있는 경우 1자로 시작합니다."라는 것을 감지할 수 있습니다. 이러한 조건에 따라 정규식을 만들면 원하는 모든 값을 캡처하는 동안 불필요한 일치를 최소화할 수 있으며, 추가 분석을 통해 다양한 형식을 설명하는 별도의 패턴을 정의하여 정밀도를 높일 수 있습니다.

수동으로 규칙 패키지 만들기

이 절차에서는 규칙 패키지(유니코드 인코딩 사용)라는 XML 형식의 파일을 만든 다음 보안 & 준수 PowerShell cmdlet을 사용하여 Microsoft Purview에 업로드하는 방법을 보여 줍니다.

참고

매핑하는 SIT가 다중 단어 확증 증거를 검색할 수 있는 경우 수동으로 만든 규칙 패키지에서 정의하는 보조 요소를 SIT에 매핑할 수 있습니다. 예를 들어 해당 John Smith 확증 증거 필드가 해당 패턴을 검색할 수 있는 SIT에 매핑되지 않은 경우 필드 중 하나에 업로드된 용어 John SmithSmith 별도로 콘텐츠에서 찾은 이름을 보조 요소 John 로 일치하지 않습니다.

Microsoft 365 테넌트의 규칙 패키지는 10개로 제한됩니다. 규칙 패키지에는 임의의 수의 중요한 정보 유형이 포함될 수 있으므로 이 메서드를 사용하여 새 SIT를 정의할 때마다 새 규칙 패키지를 만들지 않고 기존 규칙 패키지를 내보내고 XML에 중요한 정보 유형을 추가한 후 다시 업로드할 수 있습니다.

  1. 다음 예제와 같이 in XML 형식(유니코드 인코딩 사용)에 규칙 패키지를 생성하세요. (여기에 있는 예제를 복사, 수정 및 사용할 수 있습니다.)

    규칙 패키지를 설정할 때 중요한 정보 원본 테이블 파일 및edm.xml 스키마 파일로 구분된 .csv, .tsv 또는 파이프(|)를 올바르게 참조해야 합니다. (여기에 있는 예제를 복사, 수정 및 사용할 수 있습니다.) 이 샘플 xml에서는 EDM 중요한 형식을 만들려면 다음 필드를 사용자 지정해야 합니다.

    • RulePack ID & ExactMatch ID:New-GUID를 사용하여 GUID를 생성합니다.

    • Datastore: 이 필드는 사용할 EDM 조회 데이터 저장소를 지정합니다. 구성된 EDM 스키마의 데이터 원본 이름을 제공합니다.

    • idMatch: 이 필드는 EDM의 기본 요소를 가리킵니다.

    • 일치: 정확한 조회에 사용할 필드를 지정합니다. 데이터 저장소의 EDM 스키마에서 검색 가능한 필드 이름을 입력합니다.

    • 분류: 이 필드는 EDM 조회를 트리거하는 SIT 일치 항목을 지정합니다. 기존 기본 제공 또는 사용자 지정 SIT의 이름 또는 GUID를 사용할 수 있습니다.

    참고

    제공된 SIT와 일치하는 모든 문자열은 해시되고 중요한 정보 원본 테이블의 모든 항목과 비교됩니다. 분류 요소에 대한 사용자 지정 SIT를 선택하는 경우 성능 문제를 방지하려면 많은 콘텐츠와 일치하는 SIT를 사용하지 마세요. 예를 들어 "임의의 숫자" 또는 "임의의 다섯 글자 단어"에 일치하는 단어입니다. 지원 키워드를 추가하거나 사용자 지정 분류 SIT 정의에 서식을 포함하여 구분할 수 있습니다.

    • 일치: 이 필드는 idMatch 근접에서 발견된 추가 증거를 가리킵니다.

    • 일치: DataStore용 EDM 스키마에 필드 이름을 제공합니다.

    • 리소스 idRef: 이 섹션에서는 여러 로캘의 중요한 형식에 대한 이름과 설명을 지정합니다.

      • ExactMatch ID에 대한 GUID를 제공합니다.
      • 이름 & 설명: 필요에 따라 사용자 지정합니다.
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. 다음 PowerShell 명령을 실행하여 규칙 패키지를 업로드합니다.

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

참고

규칙 패키지 파일의 구문은 다른 중요한 정보 유형과 동일합니다. 규칙 패키지 파일의 구문 및 추가 구성 옵션에 대한 자세한 내용과 PowerShell을 사용하여 중요한 정보 유형을 수정 및 삭제하는 방법에 대한 지침은 PowerShell을 사용하여 사용자 지정 SIT 만들기를 참조하세요.

다음 단계