Microsoft Purview의 광학 문자 인식에 대해 알아보기

아티클
04/01/2024

OCR(광학 문자 인식) 검사를 통해 Microsoft Purview는 이미지의 콘텐츠를 검사하여 중요한 정보를 검색할 수 있습니다. 선택적 기능인 OCR 검사는 먼저 테넌트 수준에서 사용하도록 설정됩니다. 사용하도록 설정하면 이미지를 검사할 위치를 선택합니다. 이미지 검사는 Exchange, SharePoint, OneDrive, Teams 및 Windows 디바이스에서 사용할 수 있습니다. OCR 설정이 구성되면 DLP(데이터 손실 방지), 레코드 관리 및 IRM(내부 위험 관리)에 대한 기존 정책이 이미지 및 텍스트 기반 콘텐츠에 적용됩니다. 예를 들어 DLP 조건 콘텐츠에 중요한 정보가 포함되어 있고 SIT(신용 카드) 중요한 정보 유형과 같은 데이터 분류자를 포함하도록 구성했다고 가정해 보겠습니다. 이 경우 Microsoft Purview는 선택한 모든 위치에서 텍스트와 이미지 모두에서 신용 카드 번호를 검색합니다.

워크플로 한눈에 보기

단계	필요한 사항
1단계: 필요한 경우 Azure 구독 만들기	organization 테넌트의 Azure 종량제 구독이 아직 없는 경우 전역 관리자는 Azure 계정을 만들어 시작해야 합니다.
2단계: OCR을 사용하도록 종량제 청구를 설정합니다.	전역 또는 SharePoint 관리자는 Azure에서 Microsoft Syntex 청구 설정의 지침에 따라 OCR에 대한 구독을 추가해야 합니다.
3단계: OCR 검사 설정 구성	organization 규정 준수 관리자는 테넌트의 OCR 설정을 구성합니다.

1단계: 필수 구성 요소

OCR 검사를 사용하려면 organization 전역 관리자가 Azure 종량제 구독이 있는지 확인해야 합니다. 그렇지 않은 경우 초기 Azure 구독 만들기의 지침에 따라 설정해야 합니다.

2단계: 청구 구성

OCR을 사용하도록 설정하면 모든 중요한 정보 유형과 학습 가능한 분류자가 이미지에 있는 문자를 검색할 수 있습니다.

선택적 기능이므로 전역 관리자는 OCR을 사용하도록 종량제 청구를 설정해야 합니다. OCR에 대한 구독을 추가하려면 Azure에서 Microsoft Syntex 청구 설정의 지침을 참조하세요.

참고

Microsoft Syntex 청구 정보가 입력되면 규정 준수 관리자는 추가 설정 또는 라이선스 요구 사항 없이 Microsoft Purview에서 OCR을 구성할 수 있습니다.

Azure에서 Microsoft Syntex 청구 설정 페이지에서 OCR 종량제 가격 정보를 찾을 수 있습니다.

요금

OCR 사용에 대한 요금은 스캔된 1,000개 항목마다 $1.00입니다. 스캔한 각 이미지는 하나의 트랜잭션으로 계산됩니다. 즉, 독립 실행형 이미지(JPEG, JPG, PNG, BMP 또는 TIFF)는 각각 단일 트랜잭션으로 계산됩니다. 또한 PDF 파일의 각 페이지에 는 별도로 요금이 청구됩니다. 예를 들어 PDF 파일에 페이지가 10개 있는 경우 PDF 파일의 OCR 검색은 10개의 개별 검사로 계산됩니다.

참고

OCR 비용을 줄이기 위해 각 고유 이미지를 검사하는 요금은 한 번만 발생합니다.

Microsoft Exchange를 통해 전자 메일로 전송되는 로고 및 서명과 같은 작은 이미지는 테넌트 전체의 고유한 이미지당 한 번만 검사되고 요금이 청구됩니다. 모든 후속 인스턴스의 경우 이전 검사 결과가 다시 사용됩니다.

또한 스캔한 각 이미지는 추가 비용 없이 데이터 손실 방지, 내부자 위험 관리, 자동 레이블 지정 및 레코드 관리에 걸쳐 다양한 정책에서 사용할 수 있습니다.

중요

PDF 파일과 함께 DLP(Microsoft Purview 데이터 손실 방지) 기능을 사용하기 위한 Adobe 요구 사항에 대한 자세한 내용은 Adobe: Acrobat의 Microsoft Purview Information Protection 지원 문서를 참조하세요.

청구서를 보려면 Microsoft Syntex 종량제 사용량 모니터링에 설명된 지침을 따릅니다.

청구서 예측

OCR을 처음 사용하는 경우 사용량을 소수의 사용자 및 해당 워크로드로만 제한합니다. 잠시 후 Azure에서 청구서를 보고 매일 청구에 & 사용량 통계를 볼 수 있습니다. 여기에서 전체 사용자 집합에 대한 비용을 추정할 수 있습니다. 또한 Azure 비용 관리에서 "워크로드" 태그를 사용하여 워크로드당 사용량 분석을 확인할 수 있습니다.

3단계: OCR 설정 구성

Microsoft Purview 규정 준수 포털 설정으로 이동합니다.
OCR(광학 문자 인식)을 선택하여 OCR 구성 설정을 입력합니다.
이미지를 검사할 위치를 선택합니다.
OCR 검사에서 포함하거나 제외하려는 메일 그룹을 선택합니다.
완료 선택

지원되는 위치 및 솔루션은 아래 표에 나와 있습니다.

권한

정책을 만들고 배포하는 데 사용하는 계정은 이러한 역할 그룹 중 하나의 구성원이어야 합니다.

준수 관리자
규정 준수 데이터 관리자
전역 관리자
정보 보호
Information Protection 관리자

참고

일반적으로 OCR 설정은 켜진 후 약 1시간 후에 적용됩니다.
Microsoft Purview 커뮤니케이션 규정 준수 OCR 기능에 대한 자세한 내용은 통신 규정 준수 정책 만들기 및 관리를 참조하세요.

지원되는 위치 및 솔루션

위치	지원되는 솔루션
Exchange	데이터 손실 방지 정보 보호: 자동 레이블 지정 정책 레코드 관리: 보존 레이블 정책 자동 적용¹
SharePoint 사이트	데이터 손실 방지 내부 위험 관리² 레코드 관리: 보존 레이블 정책 자동 적용¹
OneDrive 계정	데이터 손실 방지 레코드 관리: 보존 레이블 정책 자동 적용¹
Teams 채팅 및 채널 메시지	데이터 손실 방지 내부 위험 관리²
디바이스	데이터 손실 방지 내부 위험 관리²

¹ 키워드 및 중요한 정보 유형을 지원합니다.
² 위험 채점을 위해 이미지에 있는 중요한 정보 유형 및 학습 가능한 분류자를 고려합니다.

지원되는 파일 형식은 무엇인가요?

이 기능은 다음과 같은 파일 형식의 이미지 검사를 지원하며, 명시된 요구 사항을 충족합니다.

지원되는 파일 형식	이미지 요구 사항
JPEG, JPG, PNG, BMP, TIFF 및 PDF(이미지에만 해당)	파일 크기: 이미지 파일은 Exchange 및 Teams의 경우 20MB 이하여야 합니다. SharePoint, OneDrive 및 Windows 엔드포인트의 경우 최대 이미지 파일 크기는 50MB입니다. 이미지 해상도: 이미지 해상도는 50 x 50픽셀 이상이어야 하며 16,000 x 16,000px보다 크지 않아야 합니다.

중요

OCR을 사용하도록 설정한 후에 업로드된 이미지만 검사됩니다.
들어오는 전자 메일(organization 외부 사용자의 전자 메일) 및 발신 전자 메일(organization 내 사용자로부터 보낸 이메일)은 모두 OCR 검사를 받습니다. OCR 검사를 보내는 전자 메일로만 제한하려면 OCR 설정을 모든 메일 그룹의 기본 scope 특정 메일 그룹으로 변경하고 OCR에서 검사할 내부 메일 그룹을 지정합니다. 이 구성을 변경하는 방법에 대한 자세한 내용은 3단계: OCR 설정 구성을 참조하세요.
Exchange의 이미지에는 데이터 손실 방지 정책 팁이 지원되지 않습니다.
엔드포인트 데이터 손실 방지 설정에서 경로를 제외 하는 경우 OCR은 해당 폴더의 이미지를 검사하지 않습니다.
Windows 디바이스에 대해 OCR이 켜져 있으면 디바이스는 검사를 위해 클라우드로 메시지를 보내기 시작합니다. 기본 대역폭 제한은 일일 디바이스당 1024MB의 데이터입니다. OCR은 이 일일 제한에 도달하면 이미지 검사를 중지합니다. 이미지 검사를 계속하려면 대역폭 제한을 늘릴 수 있습니다.

지원되는 언어는 무엇인가요?

OCR 검사는 150개 이상의 언어를 지원합니다.

요약

OCR을 사용하려면 종량제 청구를 Microsoft Syntex 설정해야 합니다. (Microsoft Syntex 직접 설정할 필요는 없습니다.)
OCR 구성은 테넌트 수준에서 발생하므로 OCR이 구성되면 전체 Microsoft Purview 스택에서 사용할 수 있습니다.
OCR에 대한 별도의 데이터 분류자를 만들 필요가 없습니다. OCR이 구성되면 기존 중요한 정보 유형, 정확한 데이터 일치 기반 중요한 정보 유형, 학습 가능한 분류자 및 지문 SID 는 이미지와 문서 및 이메일을 스캔합니다.