OCR - 광학 문자 인식

OCR 또는 광학 문자 인식을 텍스트 인식 또는 텍스트 추출이라고도 합니다. 기계 학습 기반 OCR 기술을 사용하면 포스터, 도로 표지판 및 제품 레이블과 같은 이미지뿐만 아니라 문서, 보고서, 양식 및 청구서와 같은 문서에서 인쇄되거나 필기된 텍스트를 추출할 수 있습니다. 텍스트는 일반적으로 단어, 텍스트 줄, 단락 또는 텍스트 블록으로 추출되므로 스캔한 텍스트의 디지털 버전에 액세스할 수 있습니다. 이렇게 하면 수동 데이터 입력의 필요성이 제거되거나 크게 줄어듭니다.

IDP(지능형 문서 처리)는 OCR을 기본 기술로 사용하여 Form Recognizer 같은 고급 기계 학습 기반 AI 서비스를 사용하여 구조, 관계, 키-값, 엔터티 및 기타 문서 중심 인사이트를 추가로 추출합니다. Form Recognizer 고급 인사이트를 위해 다른 모델을 위임하는 동안 문서 최적화 버전의 읽기를 OCR 엔진으로 포함합니다. 스캔한 문서와 디지털 문서에서 텍스트를 추출하는 경우 읽기 OCR을 Form Recognizer 사용합니다.

OCR 엔진

Microsoft 읽기 OCR 엔진은 전역 언어를 지원하는 여러 고급 기계 학습 기반 모델로 구성됩니다. 이렇게 하면 혼합 언어 및 쓰기 스타일을 포함하여 인쇄 및 필기 텍스트를 추출할 수 있습니다. 읽기 는 배포 유연성을 위해 클라우드 서비스 및 온-프레미스 컨테이너로 사용할 수 있습니다. 최신 미리 보기를 사용하면 OCR 지원 사용자 환경을 보다 쉽게 구현할 수 있도록 성능이 향상된 단일 비문서 이미지 전용 시나리오에 대한 동기 API로도 사용할 수 있습니다.

경고

Computer Vision 레거시 ocrRecognizeText 작업은 더 이상 지원되지 않으며 사용해서는 안 됩니다.

OCR(읽기) 버전

중요

요구 사항에 가장 적합한 읽기 버전을 선택합니다.

입력 예제 읽기 버전 이점
이미지: 일반, 야생 이미지 레이블, 도로 표지판 및 포스터 Computer Vision v4.0 미리 보기 사용자 환경 시나리오에 OCR을 더 쉽게 포함할 수 있도록 성능이 향상된 동기 API를 사용하여 일반 문서 이외의 이미지에 최적화되었습니다.
문서: 이미지를 포함하여 디지털 및 스캔 책, 문서 및 보고서 Form Recognizer 대규모로 지능형 문서 처리를 자동화하는 데 도움이 되도록 비동기 API를 사용하여 텍스트가 많은 스캔 및 디지털 문서에 최적화되었습니다.

Computer Vision v3.2 GA 읽기 정보

최신 Computer Vision v3.2 GA 읽기를 찾고 계신가요? 향후 모든 읽기 OCR 향상은 위에 나열된 두 가지 새로운 서비스의 일부가 될 것입니다. Computer Vision v3.2에 대한 추가 업데이트는 없습니다. 계속하려면 Computer Vision v3.2 GA 읽기 개요빠른 시작을 참조하세요.

OCR을 사용하는 방법

Vision Studio를 사용하여 OCR을 사용해 보세요. 그런 다음, 요구 사항을 가장 잘 충족하는 이후 섹션의 Read Edition에 대한 링크 중 하나를 따릅니다.

스크린샷: Vision Studio에서 OCR 데모를 읽습니다.

OCR 지원 언어

현재 Computer Vision 사용할 수 있는 읽기 버전은 모두 인쇄 및 필기 텍스트에 대한 여러 언어를 지원합니다. 인쇄 텍스트용 OCR에는 영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 스페인어, 중국어, 일본어, 한국어, 러시아어, 아랍어, 힌디어 및 라틴어, 키릴 자모, 아랍어 및 Devanagari 스크립트를 사용하는 기타 국제 언어에 대한 지원이 포함됩니다. 필기 텍스트용 OCR에는 영어, 중국어 간체, 프랑스어, 독일어, 이탈리아어, 일본어, 한국어, 포르투갈어 및 스페인어 지원이 포함됩니다.

OCR 지원 언어의 전체 목록을 참조하세요.

OCR 일반 기능

읽기 OCR 모델은 Computer Vision 및 Form Recognizer 각 시나리오에 최적화하면서 일반적인 기준 기능을 사용할 수 있습니다. 다음 목록에는 일반적인 기능이 요약되어 있습니다.

  • 지원되는 언어로 인쇄 및 필기 텍스트 추출
  • 위치 및 신뢰도 점수가 있는 페이지, 텍스트 줄 및 단어
  • 혼합 언어, 혼합 모드 지원(인쇄 및 필기)
  • 온-프레미스 배포를 위한 Distroless Docker 컨테이너로 사용 가능

OCR 클라우드 API 사용 또는 온-프레미스 배포

클라우드 API는 통합의 용이성과 빠른 생산성으로 인해 대부분의 고객에게 선호되는 옵션입니다. Azure와 Computer Vision 서비스는 사용자가 고객의 요구를 충족하는 데 집중하는 동안 규모, 성능, 데이터 보안 및 규정 준수 요구 사항을 처리합니다.

온-프레미스 배포의 경우 읽기 Docker 컨테이너(미리 보기)를 사용하면 사용자 고유의 로컬 환경에서 Computer Vision v3.2 일반 공급 OCR 기능을 배포할 수 있습니다. 컨테이너는 특정 보안 및 데이터 거버넌스 요구 사항에 적합합니다.

OCR 데이터 개인 정보 및 보안

모든 Cognitive Services와 마찬가지로 Computer Vision 서비스를 사용하는 개발자는 고객 데이터에 대한 Microsoft의 정책에 대해 알고 있어야 합니다. Microsoft Trust Center의 Cognitive Services 페이지에서 자세히 알아보세요.

다음 단계