다음을 통해 공유


OCR - 광학 인식

OCR 또는 광학 인식을 텍스트 인식 또는 텍스트 추출이라고도 합니다. 기계 학습 기반 OCR 기술을 사용하면 포스터, 도로 표지판 및 제품 레이블과 같은 이미지뿐만 아니라 문서, 보고서, 양식 및 청구서와 같은 문서에서 인쇄되거나 필기된 텍스트를 추출할 수 있습니다. 텍스트는 일반적으로 단어, 텍스트 줄, 단락 또는 텍스트 블록으로 추출되므로 스캔한 텍스트의 디지털 버전에 액세스할 수 있습니다. 이렇게 하면 수동 데이터 입력의 필요성이 제거되거나 크게 줄어듭니다.

OCR 엔진

Microsoft의 Read OCR 엔진은 글로벌 언어를 지원하는 여러 고급 기계 학습 기반 모델로 구성됩니다. 혼합 언어 및 쓰기 스타일을 포함하여 인쇄된 텍스트와 손으로 쓴 텍스트를 추출할 수 있습니다. 배포 유연성을 위해 Read를 클라우드 서비스 및 온-프레미스 컨테이너로 사용할 수 있습니다. 또한 OCR 지원 사용자 환경을 더 쉽게 구현할 수 있도록 성능이 향상된 단일 비문서 이미지 전용 시나리오를 위한 동기식 API로도 사용할 수 있습니다.

Warning

Azure AI 비전 레거시 v3.2의 OCR APIv2.1의 RecognizeText API 작업은 사용이 권장되지 않습니다.

OCR(읽기) 버전

Important

요구 사항에 가장 적합한 Read 버전을 선택합니다.

입력 예제 Read 버전 장점
이미지: 일반적인 야생 이미지 레이블, 거리 표지판 및 포스터 이미지용 OCR(버전 4.0) 사용자 환경 시나리오에 OCR을 더 쉽게 포함할 수 있도록 하는 성능이 향상된 동기식 API를 사용하여 일반적인 비문서 이미지에 최적화되었습니다.
문서: 이미지를 포함한 디지털 및 검사 문서 책, 문서 및 보고서 문서 인텔리전스 읽기 모델 대규모로 지능적인 문서 처리를 자동화할 수 있도록 하는 비동기 API를 사용하여 텍스트가 많은 검사 및 디지털 문서에 최적화되었습니다.

Azure AI 비전 v3.2 GA 정보 읽기

최신 Azure AI 비전 v3.2 GA 읽기를 찾고 계시나요? 향후의 모든 읽기 OCR 개선 사항은 이전에 나열된 두 가지 서비스의 일부입니다. Azure AI 비전 v3.2에 대한 추가 업데이트는 없습니다. 자세한 내용은 Azure AI Vision 3.2 GA 읽기 API 호출빠른 시작: Azure AI Vision v3.2 GA 읽기를 참조하세요.

IDP(Intelligent Document Processing)는 OCR을 기본 기술로 사용하여 문서 인텔리전스 같은 고급 기계 학습 기반 AI 서비스로 구조, 관계, 키-값, 엔터티 및 기타 문서 중심 인사이트를 추가로 추출합니다. 문서 인텔리전스에는 OCR 엔진으로 문서에 최적화된 읽기 버전이 포함되어 있으며, 고급 인사이트를 위해 다른 모델에 위임됩니다. 검사한 문서와 디지털 문서에서 텍스트를 추출하는 경우 문서 인텔리전스 Read OCR을 사용합니다.

OCR 사용 방법

Vision Studio를 사용하여 OCR을 사용해 보세요. 그런 다음, 요구 사항을 가장 잘 충족하는 Read 버전에 대한 링크 중 하나를 따릅니다.

스크린샷: Vision Studio의 Read OCR 데모

OCR 지원 언어

현재 Azure AI Vision에서 사용할 수 있는 두 가지 읽기 버전 모두 인쇄 및 필기 텍스트에 대해 여러 언어를 지원합니다. 인쇄 텍스트용 OCR에는 영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 스페인어, 중국어, 일본어, 한국어, 러시아어, 아랍어, 힌디어 및 라틴어, 키릴 자모, 아랍어 및 데바나가리 스크립트를 사용하는 기타 국제 언어에 대한 지원이 포함됩니다. 필기 텍스트용 OCR에는 영어, 중국어 간체, 프랑스어, 독일어, 이탈리아어, 일본어, 한국어, 포르투갈어, 스페인어에 대한 지원이 포함됩니다.

OCR 지원 언어의 전체 목록을 참조하세요.

OCR 일반 기능

OCR 읽기 모델은 Azure AI Vision 및 문서 인텔리전스에서 공통 기준 기능을 사용하면서 각 시나리오에 맞게 최적화할 수 있습니다. 다음 목록에서는 일반적인 기능을 요약합니다.

  • 지원되는 언어로 인쇄 및 필기 텍스트 추출
  • 위치 및 신뢰도 점수가 있는 페이지, 텍스트 줄 및 단어
  • 혼합 언어, 혼합 모드 지원(인쇄 및 필기)
  • 온-프레미스 배포를 위한 Distroless Docker 컨테이너로 사용 가능

OCR 클라우드 API 사용 또는 온-프레미스 배포

클라우드 API는 편리한 통합 및 빠른 생산성 덕분에 대부분의 고객에게 선호되는 옵션입니다. Azure와 Azure AI Vision 서비스는 사용자가 고객의 요구를 충족하는 데 집중하는 동안 규모, 성능, 데이터 보안 및 규정 준수 요구 사항을 처리합니다.

온-프레미스 배포의 경우 Read Docker 컨테이너를 사용하여 Azure AI v3.2 일반 공급 OCR 기능을 자체 로컬 환경에 배포할 수 있습니다. 컨테이너는 특정 보안 및 데이터 거버넌스 요구 사항에 적합합니다.

입력 요구 사항

Read API는 이미지와 문서를 입력으로 사용합니다. 이미지 및 문서는 다음 요구 사항을 충족해야 합니다.

  • 지원되는 파일 형식은 JPEG, PNG, BMP, PDF 및 TIFF입니다.
  • PDF 및 TIFF 파일의 경우 최대 2,000페이지(무료 계층의 경우 처음 두 페이지만)가 처리됩니다.
  • 이미지의 파일 크기는 500MB(무료 계층의 경우 4MB) 미만이어야 하며 크기는 50 x 50픽셀 이상, 최대 10,000 x 10,000픽셀이어야 합니다. PDF 파일에는 크기 제한이 없습니다.
  • 추출할 텍스트의 최소 높이는 1024 x 768 이미지의 경우 12픽셀이며, 150DPI의 약 8포인트 글꼴 텍스트에 해당합니다.

참고 항목

텍스트 선에서 이미지를 자르지 않아도 됩니다. 전체 이미지를 읽기 API로 보내면 모든 텍스트가 인식됩니다.

OCR 데이터 개인 정보 보호 및 보안

모든 Azure AI 서비스와 마찬가지로 Azure AI Vision 서비스를 사용하는 개발자는 고객 데이터에 대한 Microsoft의 정책을 알고 있어야 합니다. 자세한 내용은 Microsoft 보안 센터의 Azure AI 서비스 페이지를 참조하세요.

다음 단계