Azure Document Intelligence란?
팁 (조언)
자세한 내용은 텍스트 및 이미지 탭을 참조하세요.
Azure Document Intelligence 는 OCR 및 딥 러닝 모델을 사용하여 문서에서 텍스트, 키-값 쌍, 선택 표시 및 테이블을 추출하는 Microsoft Foundry의 클라우드 기반 AI 서비스입니다.
OCR은 이미지에서 검색된 개체 주위에 경계 상자를 만들어 문서 구조를 캡처합니다. 경계 상자의 위치는 페이지의 나머지 부분을 기준으로 좌표로 기록됩니다. Azure Document Intelligence는 경계 상자 데이터 및 기타 정보를 원래 문서의 관계를 유지하는 구조화된 JSON 형식으로 반환합니다.
높은 정확도의 문서 추출 모델을 처음부터 빌드하려면 딥 러닝 전문 지식, 대량의 컴퓨팅 및 긴 학습 시간이 필요합니다. Azure Document Intelligence는 수천 개의 양식 예제에서 이미 학습된 기본 모델을 제공하므로 최소한의 노력으로 정확도 높은 데이터 추출을 달성할 수 있습니다.
문서 인텔리전스 서비스 구성 요소
Azure Document Intelligence는 세 가지 범주의 모델로 구성됩니다.
문서 분석 모델: 문서에서 텍스트, 구조, 표 및 선택 표시를 추출합니다. 읽기 모델은 텍스트를 추출하고 언어를 검색하는 반면 레이아웃 모델은 테이블 및 구조 추출을 추가합니다. 미리 빌드된 모델 사용 단원에서 이러한 모델을 자세히 살펴보겠습니다.
미리 빌드된 모델: 교육 없이 청구서, 영수증, 세금 양식, ID 문서 등과 같은 일반적인 문서 형식에서 정보를 추출합니다. 미리 빌드된 모델 사용 단위에 사용 가능한 미리 빌드된 모델의 전체 목록이 표시됩니다.
사용자 지정 모델: 고유한 레이블이 지정된 데이터 세트를 사용하여 비즈니스와 관련된 양식에서 데이터를 추출합니다. 옵션에는 사용자 지정 템플릿 모델(고정 레이아웃의 경우 빠르고 비용 효율적), 사용자 지정 신경망 모델(다양한 레이아웃에 대한 높은 정확도), 구성된 모델 및 사용자 지정 분류자 등이 있습니다. 당신은 사용자 지정 모델 학습 및 사용 단위에서 사용자 지정 모델의 학습과 사용에 대해 배우게 될 것입니다.
문서 인텔리전스 서비스에 액세스
다음과 같은 여러 가지 방법으로 Azure Document Intelligence에 액세스할 수 있습니다.
- REST API: HTTP 요청을 사용하여 서비스를 직접 호출합니다.
- 클라이언트 라이브러리 SDK: Python, C#, Java 및 JavaScript용 SDK를 사용합니다.
- Document Intelligence Studio: 문서 인텔리전스 솔루션을 시각적으로 탐색, 테스트 및 빌드하기 위한 온라인 도구입니다.
- Microsoft Foundry 포털: 문서 인텔리전스를 다른 Foundry 도구와 통합합니다.
팁 (조언)
이 모듈의 연습에서는 Python SDK에 중점을 둡니다. 기본 REST 서비스는 모든 언어로 사용할 수 있습니다.
문서 인텔리전스 리소스 만들기
Azure Document Intelligence를 사용하려면 Azure 리소스가 필요합니다. 다음 중 하나를 사용할 수 있습니다.
- Foundry 리소스: 단일 엔드포인트와 키로 여러 AI 서비스에 접근할 수 있는 다중 서비스 구독입니다.
- Azure Document Intelligence 리소스: Document Intelligence에서만 사용되는 단일 서비스 리소스입니다.
메모
단일 엔드포인트 및 키로 여러 Foundry 도구에 액세스하려는 경우 Foundry 리소스를 만듭니다. 문서 인텔리전스에 액세스하기 위한 전용 문서 인텔리전스 리소스를 생성합니다.
입력 요구 사항
Azure Document Intelligence는 다음 요구 사항을 충족하는 입력 문서에서 작동합니다.
- 형식은 JPEG, PNG, BMP, PDF(텍스트 또는 스캔) 또는 TIFF여야 합니다. 읽기 모델은 Microsoft Office 파일 형식도 허용합니다.
- 파일 크기는 표준 계층의 경우 500MB, 무료 계층의 경우 4MB 미만이어야 합니다.
- 이미지 크기는 50 x 50픽셀에서 10,000 x 10,000픽셀 사이여야 합니다.
- PDF 문서에는 17 x 17인치 미만의 크기(A3 용지 크기)가 있어야 합니다.
- PDF 문서는 암호로 보호되어서는 안 됩니다.