경고
Foundry Tools 레거시 OCR API v3.2 및 RecognizeText API v2.1의 Azure Vision을 포함하여 이 서비스를 사용하지 않는 것이 좋습니다.
OCR(Read) 버전
중요합니다
요구 사항에 가장 적합한 Read 버전을 선택합니다.
| 입력 | 예제 | Read 버전 | 혜택 |
|---|---|---|---|
| 이미지: 일반적인 야생 이미지 | 레이블, 거리 표지판 및 포스터 | 이미지용 OCR(버전 4.0) | 사용자 환경 시나리오에 OCR을 더 쉽게 포함할 수 있도록 하는 성능이 향상된 동기식 API를 사용하여 일반적인 비문서 이미지에 최적화되었습니다. |
| 문서: 이미지를 포함한 디지털 및 검사 문서 | 책, 문서 및 보고서 | 문서 인텔리전스 읽기 모델 | 대규모로 지능적인 문서 처리를 자동화할 수 있도록 하는 비동기 API를 사용하여 텍스트가 많은 검사 및 디지털 문서에 최적화되었습니다. |
Azure Vision v3.2 GA에 대한 정보 읽기
최신 Azure Vision v3.2 GA 읽기를 찾고 계신가요? 향후의 모든 읽기 OCR 개선 사항은 위에 나열된 두 가지 서비스의 일부입니다. Azure Vision v3.2에 대한 추가 업데이트는 없습니다. 자세한 내용은 Azure Vision 3.2 GA 읽기 API 및 빠른 시작 호출: Azure Vision v3.2 GA 읽기를 참조하세요.
OCR 또는 광학 인식을 텍스트 인식 또는 텍스트 추출이라고도 합니다. 기계 학습 기반 OCR 기술을 사용하면 포스터, 도로 표지판 및 제품 레이블과 같은 이미지뿐만 아니라 문서, 보고서, 양식 및 청구서와 같은 문서에서 인쇄되거나 필기된 텍스트를 추출할 수 있습니다. 텍스트는 일반적으로 단어, 텍스트 줄, 단락 또는 텍스트 블록으로 추출되므로 스캔한 텍스트의 디지털 버전에 액세스할 수 있습니다. 이 기능은 수동 데이터 입력의 필요성을 제거하거나 크게 줄입니다.
OCR 엔진
Microsoft의 읽기 OCR 엔진은 글로벌 언어를 지원하는 여러 고급 기계 학습 모델을 사용합니다. 혼합 언어 및 쓰기 스타일을 포함하여 인쇄 및 필기 텍스트를 추출합니다. 유연한 배포를 위해 클라우드 서비스 또는 온-프레미스 컨테이너로 읽기 를 사용할 수 있습니다. 또한 OCR 지원 사용자 환경 구현을 간소화하는 성능 향상을 통해 문서가 아닌 단일 이미지 전용 시나리오에 대한 동기 API로도 사용할 수 있습니다.
OCR은 IDP(Intelligent Document Processing)와 어떻게 관련되나요?
IDP(지능형 문서 처리)는 OCR을 기본 기술로 사용하여 문서 인텔리전스와 같은 고급 기계 학습 기반 AI 서비스를 사용하여 구조, 관계, 키 값, 엔터티 및 기타 문서 중심 인사이트를 추출합니다. 문서 인텔리전스에는 OCR 엔진으로 문서에 최적화된 읽기 버전이 포함되어 있으며, 고급 인사이트를 위해 다른 모델에 위임됩니다. 스캔한 문서와 디지털 문서에서 텍스트를 추출하는 경우 문서 인텔리전스 읽기 OCR을 사용합니다.
OCR 사용 방법
Vision Studio를 사용하여 OCR을 사용해 보세요. 그런 다음 요구 사항을 가장 잘 충족하는 Read 버전에 대한 링크 중 하나를 따릅니다.
OCR 지원 언어
현재 Azure Vision에서 사용할 수 있는 두 읽기 버전은 모두 인쇄 및 필기 텍스트에 대한 여러 언어를 지원합니다. 인쇄 텍스트용 OCR은 영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 스페인어, 중국어, 일본어, 한국어, 러시아어, 아랍어, 힌디어 및 라틴어, 키릴 자모, 아랍어 및 Devanagari 스크립트를 사용하는 기타 국제 언어를 지원합니다. 필기 텍스트용 OCR은 영어, 중국어 간체, 프랑스어, 독일어, 이탈리아어, 일본어, 한국어, 포르투갈어 및 스페인어를 지원합니다.
OCR 지원 언어의 전체 목록을 참조하세요.
OCR 일반 기능
읽기 OCR 모델은 Azure Vision 및 Document Intelligence에서 사용할 수 있으며, 각 시나리오에 최적화하는 동안 공통 기준 기능을 사용할 수 있습니다. 다음 목록에서는 일반적인 기능을 요약합니다.
- 지원되는 언어로 인쇄 및 필기 텍스트 추출
- 위치 및 신뢰도 점수가 있는 페이지, 텍스트 줄 및 단어
- 혼합 언어, 혼합 모드 지원(인쇄 및 필기)
- 온-프레미스 배포를 위한 Distroless Docker 컨테이너로 사용 가능
OCR 클라우드 API 사용 또는 온-프레미스 배포
대부분의 고객은 통합하기 쉽고 빠른 생산성을 제공하기 때문에 클라우드 API를 선호합니다. Azure 및 Azure Vision 서비스는 고객의 요구 사항을 충족하는 데 집중하는 동안 규모, 성능, 데이터 보안 및 규정 준수 요구 사항을 처리합니다.
온-프레미스 배포의 경우 읽기 Docker 컨테이너 를 사용하면 사용자 고유의 로컬 환경에서 Azure Vision v3.2 일반 공급 OCR 기능을 배포할 수 있습니다. 컨테이너는 특정 보안 및 데이터 거버넌스 요구 사항에 적합합니다.
입력 요구 사항
Read API는 이미지와 문서를 입력으로 사용합니다. 이미지와 문서는 다음 요구 사항을 충족해야 합니다.
- 지원되는 파일 형식은 JPEG, PNG, BMP, PDF, TIFF입니다.
- PDF 및 TIFF 파일의 경우 최대 2,000페이지가 처리됩니다(무료 계층의 경우 처음 두 페이지만).
- 이미지의 파일 크기는 500MB(무료 계층의 경우 4MB) 미만이어야 하며 크기는 50 x 50픽셀 이상, 최대 10,000 x 10,000픽셀이어야 합니다. PDF 파일에는 크기 제한이 없습니다.
- 추출할 텍스트의 최소 높이는 1024 x 768 이미지의 경우 12픽셀이며, 이는 150 DPI에서 약 8포인트 글꼴 텍스트에 해당합니다.
참고
텍스트 선에서 이미지를 자르지 않아도 됩니다. 전체 이미지를 읽기 API로 보내면 모든 텍스트를 인식합니다.
OCR 데이터 개인 정보 보호 및 보안
모든 Foundry 도구와 마찬가지로 Azure Vision 서비스를 사용하는 개발자는 고객 데이터에 대한 Microsoft의 정책을 알고 있어야 합니다. 자세한 내용은 Microsoft 보안 센터의 Foundry 도구 페이지를 참조하세요.
다음 단계
- 일반(문서가 아닌) 이미지가 있는 OCR의 경우 Azure Vision 4.0 미리 보기 이미지 분석 REST API 빠른 시작을 사용해 보세요.
- PDF, Office 및 HTML 문서와 문서 이미지가 있는 OCR의 경우 문서 인텔리전스 읽기로 시작합니다.
- 이전 GA 버전은 Azure Vision 3.2 GA SDK 또는 REST API 빠른 시작을 참조하세요.