Microsoft Purview의 광학 문자 인식에 대해 알아보기

Microsoft Purview는 OCR(광학 문자 인식) 검사를 사용하여 이미지에서 중요한 정보를 검색할 수 있습니다. OCR 검사는 테넌트 수준에서 사용하도록 설정해야 하는 선택적 기능입니다. 사용하도록 설정한 후 이미지를 검사할 위치를 선택합니다. Exchange, SharePoint, OneDrive, Teams, Windows 및 macOS 디바이스에서 이미지를 검색할 수 있습니다. OCR 설정을 구성할 때 Microsoft Purview는 이미지 및 텍스트 기반 콘텐츠에 DLP(데이터 손실 방지), 레코드 관리 및 IRM(내부 위험 관리)을 위한 기존 정책을 적용합니다. 예를 들어 DLP 조건 콘텐츠에 중요한 정보가 포함되어 있고 SIT(신용 카드 중요 정보 유형)와 같은 데이터 분류자를 포함하는 경우 Microsoft Purview는 선택한 모든 위치에서 텍스트와 이미지 모두에서 신용 카드 번호를 검색합니다.

워크플로 한눈에 보기

단계	필요한 사항
필요한 경우 Azure 구독 만들기	organization 테넌트의 Azure 종량제 구독이 아직 없는 경우 전역 관리자는 Azure 계정을 만들어 시작해야 합니다.
OCR 검사 요금 예측	OCR 비용 예측 도구를 사용하여 특정 사용 사례에 대한 예상 요금을 예측합니다.
OCR을 사용하도록 종량제 청구를 설정합니다.	전역 또는 SharePoint 관리자는 Azure Microsoft Syntex 청구 설정의 지침에 따라 OCR에 대한 구독을 추가해야 합니다.
OCR 검사 설정 구성	organization 규정 준수 관리자는 테넌트의 OCR 설정을 구성합니다.

필수 구성 요소

OCR 검사를 사용하려면 organization 전역 관리자가 Azure 종량제 구독이 있는지 확인해야 합니다. 그렇지 않은 경우 초기 Azure 구독 만들기의 지침에 따라 구독을 설정해야 합니다.

청구 구성

OCR을 사용하도록 설정하면 모든 중요한 정보 유형과 학습 가능한 분류자가 이미지에 있는 문자를 검색할 수 있습니다.

선택적 기능이므로 전역 관리자는 OCR을 사용하도록 종량제 청구를 설정해야 합니다. OCR에 대한 구독을 추가하려면 Azure Microsoft Syntex 청구 설정의 지침을 참조하세요.

참고

Microsoft Syntex 청구 정보를 입력하면 규정 준수 관리자가 추가 설정 또는 라이선스 요구 사항 없이 Microsoft Purview에서 OCR을 구성할 수 있습니다.

OCR 종량제 가격 정보는 Azure Microsoft Syntex 청구 설정 페이지에서 찾을 수 있습니다.

OCR 검사 요금 예측

스캔한 각 이미지는 하나의 트랜잭션으로 계산됩니다. 이 가격 책정은 독립 실행형 이미지(JPEG, JPG, PNG, BMP 또는 TIFF)가 각각 단일 트랜잭션으로 계산됨을 의미합니다. 또한 PDF 파일의 각 페이지에 는 별도로 요금이 청구됩니다. 예를 들어 PDF 파일에 페이지가 10개 있는 경우 PDF 파일의 OCR 검색은 10개의 개별 검사로 계산됩니다. OCR 비용 예측 도구를 사용하는 방법에 대한 자세한 내용은 OCR 비용 예측을 참조하세요.

참고

OCR 비용을 줄이기 위해 서비스는 다음과 같은 캐싱 메커니즘을 사용합니다. Microsoft Exchange를 통해 전자 메일로 전송되는 로고 및 서명과 같은 작은 이미지는 5일의 이동 기간 동안 테넌트의 모든 사용자에 걸쳐 고유한 이미지당 한 번만 검사되고 요금이 청구됩니다. 엔드포인트의 경우 캐시는 30일 동안 유지 관리됩니다. 캐싱은 각 엔드포인트 디바이스에 로컬이며 이미지 및 이미지 해시에서 식별된 분류자만 저장됩니다. 고객 데이터는 저장되지 않습니다. SharePoint 및 OneDrive에는 독립 실행형 이미지에 대한 캐싱 메커니즘이 없습니다. 그러나 포함된 파일 형식에서는 텍스트만 업데이트하면 이미지가 다시 검사되지 않습니다.

서비스는 이미지 스트림 해시 및 이미지 크기를 비롯한 여러 매개 변수를 검사하여 캐시를 사용할 수 있는지 확인합니다. 매개 변수가 일치하지 않으면 서비스가 이미지를 다시 OCR합니다.

또한 추가 비용 없이 데이터 손실 방지, 내부자 위험 관리, 자동 레이블 지정 및 레코드 관리에 걸쳐 검사된 각 이미지를 다양한 정책에서 사용할 수 있습니다.

중요

PDF 파일과 함께 DLP(Microsoft Purview 데이터 손실 방지) 기능을 사용하기 위한 Adobe 요구 사항에 대한 자세한 내용은 Adobe: Acrobat의 Microsoft Purview Information Protection 지원 문서를 참조하세요.

OCR 설정 구성

테넌트의 OCR 검사를 구성하려면 다음 단계를 수행합니다.

Microsoft Purview 포털에 로그인합니다.
설정을 선택합니다.
OCR(광학 문자 인식)을 선택하여 OCR 구성 설정을 입력합니다.
이미지를 검사할 위치를 선택합니다.
OCR 검사에서 포함하거나 제외할 그룹을 선택합니다.
완료를 선택합니다.

OCR이 이미지 및 결과에 따라 작동하는 솔루션을 검색하는 위치의 전체 목록은 지원되는 위치 및 솔루션을 참조하세요.

권한

정책을 만들고 배포하려면 계정이 다음 역할 그룹 중 하나의 구성원이어야 합니다.

준수 관리자
규정 준수 데이터 관리자
전역 관리자
정보 보호
Information Protection 관리자

참고

일반적으로 OCR 설정은 설정 후 약 1시간 후에 적용됩니다.

참고

Microsoft Purview 커뮤니케이션 규정 준수 OCR 기능에 대한 자세한 내용은 통신 규정 준수 정책 만들기 및 관리를 참조하세요.

지원되는 위치 및 솔루션

위치	지원되는 솔루션
Exchange	데이터 손실 방지 정보 보호: 자동 레이블 지정 정책 레코드 관리: 자동 적용 보존 레이블 정책¹
SharePoint 사이트	데이터 손실 방지 내부 위험 관리² 레코드 관리: 자동 적용 보존 레이블 정책¹
OneDrive 계정	데이터 손실 방지 레코드 관리: 자동 적용 보존 레이블 정책¹
Teams 채팅 및 채널 메시지	데이터 손실 방지 내부 위험 관리²
디바이스	데이터 손실 방지 내부 위험 관리²

¹ 키워드 및 중요한 정보 유형을 지원합니다.
² 위험 채점을 위해 이미지에 있는 중요한 정보 유형 및 학습 가능한 분류자를 고려합니다.

지원되는 파일 형식

이 기능은 다음과 같은 파일 형식의 이미지 검사를 지원하며, 명시된 요구 사항을 충족합니다.

위치	지원되는 파일 형식
Exchange	JPEG, JPG, PNG, BMP, TIFF 및 PDF(검사됨). 파일당 20개의 포함된 이미지가 포함된 DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z 및 하이브리드 PDF(검색 가능한 텍스트 및 이미지 포함)의 포함된 이미지.
SharePoint 및 OneDrive	BMP, PNG, JPEG, JPG, JFIF, ARW, CR2, CRW, ERF, GIF, MEF, MRW, NEF, NRW, ORF, PEF, RAW, RW2, RW1, SR2, TIF, TIFF, HEIC, HEIF, ARI, BAY, CAP, CR3, DCS, DCR, DRF, EIP, FFF, IIQ, K25, KDC, MOS, PTX, PXN, RAF, RWL, SRF, SRW, X3F, DNG, PDF(검색 가능한 텍스트 및 이미지를 포함하는 스캔 및 하이브리드) DOCX, DOCX에 포함된 이미지 PPTX, XLSX
Teams, Windows 및 macOS 엔드포인트	JPEG, JPG, PNG, BMP, TIFF 및 PDF(이미지에만 해당)

이미지 요구 사항

요구 사항	제한 유형
파일 크기(Exchange, Teams)	최대 20MB
파일 크기(SharePoint, OneDrive, Windows 및 macOS 엔드포인트)	최대 50MB
이미지 해상도	최소 × 50px, 최대 16,000px × 16,000px

중요

OCR을 사용하도록 설정한 후에 업로드된 이미지만 검사됩니다.
OCR은 처음 2백만 문자의 텍스트만 추출합니다.
기본적으로 들어오는 전자 메일(organization 외부 사용자의 전자 메일), 내부 메일(organization 사용자 내에서 공유되는 전자 메일) 및 발신 전자 메일(organization 외부 사용자에게 전송된 전자 메일)은 OCR 검사를 받습니다. OCR 검사에서 들어오는 메일을 제외하려면 모든 보낸 사람 그룹의 기본 scope OCR 설정을 특정 보낸 사람 그룹으로 변경하고 OCR에서 검사할 내부 그룹을 지정합니다. OCR 검사를 organization 외부에서만 보낸 메일로 제한하려면 고급 설정(Exchange만 해당)에서 옵션을 선택합니다. 이 확인란을 선택하면 들어오는 메일이나 내부 통신이 모두 할당되지 않습니다. 구성 변경에 대한 자세한 내용은 OCR 설정 구성을 참조하세요.
Exchange의 이미지에는 데이터 손실 방지 정책 팁이 지원되지 않습니다.
엔드포인트 데이터 손실 방지 설정에서 경로를 제외 하는 경우 OCR은 해당 폴더의 이미지를 검사하지 않습니다.
Windows 및 macOS 디바이스에 대해 OCR이 켜져 있으면 디바이스는 검사를 위해 클라우드로 메시지를 보내기 시작합니다. 기본 대역폭 제한은 디바이스당 하루 1,024MB의 데이터입니다. OCR은 이 일일 제한에 도달하면 이미지 검사를 중지합니다. 이미지 검사를 계속하려면 대역폭 제한을 늘릴 수 있습니다.
엔드포인트 디바이스의 경우 네트워크 설정이 OCR을 방해하지 않는지 확인하고 blob.core.windows.net 엔드포인트를 허용하는 와일드카드가 있어야 합니다.
Exchange의 경우 이 기능은 DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z 및 하이브리드 PDF(검색 가능한 텍스트 및 이미지 포함)의 포함된 이미지를 지원하며 파일당 스캔된 포함된 이미지는 20개입니다.

지원되는 언어

OCR 검사는 150개 이상의 언어를 지원합니다.

요약

OCR을 사용하려면 종량제 청구를 Microsoft Syntex 설정합니다. (Microsoft Syntex 직접 설정할 필요는 없습니다.)
테넌트 수준에서 OCR을 구성하므로 OCR이 구성되면 전체 Microsoft Purview 스택에서 사용할 수 있습니다.
OCR에 대한 별도의 데이터 분류자를 만들 필요가 없습니다. OCR이 구성되면 기존 중요한 정보 유형, 정확한 데이터 일치 기반 중요한 정보 유형, 학습 가능한 분류자 및 지문 SID 는 이미지와 문서 및 이메일을 스캔합니다.
Microsoft Purview eDiscovery 사례 수준에서 OCR을 지원합니다. 자세한 내용은 eDiscovery의 검색 및 분석 설정을 참조하세요.

참고 항목

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-05-01