문서 인텔리전스 사용자 지정 모델
Important
- 문서 인텔리전스 공개 미리 보기 릴리스에서는 현재 개발 중인 기능에 대한 조기 액세스를 제공합니다. 기능, 방식 및 프로세스는 GA(일반 공급) 전에 사용자 피드백에 따라 변경될 수 있습니다.
- 문서 인텔리전스 클라이언트 라이브러리의 공개 미리 보기 버전은 기본적으로 REST API 버전 2024-07-31-preview입니다.
- 공개 미리 보기 버전 2024-07-31-preview는 현재 다음 Azure 지역에서만 사용할 수 있습니다. AI Studio의 사용자 지정 생성(문서 필드 추출) 모델은 미국 중북부 지역에서만 사용할 수 있습니다.
- 미국 동부
- 미국 서부2
- 서유럽
- 미국 중북부
이 콘텐츠의 적용 대상: v4.0(미리 보기) | 이전 버전: v3.1(GA) v3.0(GA) v2.1(GA)
이 콘텐츠의 적용 대상: v3.1(GA) | 최신 버전: v4.0(미리 보기) | 이전 버전: v3.0 v2.1
이 콘텐츠의 적용 대상: v3.0(GA) | 최신 버전: v4.0(미리 보기) v3.1 | 이전 버전: v2.1
이 콘텐츠의 적용 대상: v2.1 | 최신 버전: v4.0(미리 보기)
문서 인텔리전스는 고급 기계 학습 기술을 사용하여 문서를 식별하고, 양식과 문서에서 정보를 탐지하여 추출하고, 추출된 데이터를 정형 JSON 출력으로 반환합니다. 문서 인텔리전스를 사용하면 문서 분석 모델, 미리 빌드/미리 학습된 모델 또는 학습된 독립 실행형 사용자 지정 모델을 사용할 수 있습니다.
이제 사용자 지정 모델에는 추출 모델을 호출하기 전에 문서 형식을 식별해야 하는 시나리오에 대한 사용자 지정 분류 모델이 포함됩니다. 분류자 모델은 2023-07-31 (GA)
API부터 사용할 수 있습니다. 분류 모델을 사용자 지정 추출 모델과 페어링하여 비즈니스와 관련된 양식 및 문서에서 필드를 분석하고 추출할 수 있습니다. 독립 실행형 사용자 지정 추출 모델을 결합하여 구성된 모델을 만들 수 있습니다.
사용자 지정 문서 모델 형식
사용자 지정 문서 모델은 사용자 지정 템플릿 또는 사용자 지정 양식과 사용자 지정 인공신경망 또는 사용자 지정 문서 모델이라는 두 가지 유형 중 하나일 수 있습니다. 두 모델의 레이블 지정 및 학습 프로세스는 동일하지만 모델은 다음과 같은 차이점이 있습니다.
사용자 지정 추출 모델
사용자 지정 추출 모델을 만들려면 추출하려는 값으로 문서의 데이터 세트에 레이블을 지정하고 레이블이 지정된 데이터 세트를 모델에 학습시킵니다. 시작하려면 동일한 양식 또는 문서 유형의 5개 예제만 있으면 됩니다.
사용자 지정 인공신경망 모델
Important
버전 4.0(2024-02-29-preview) API부터 사용자 지정 인공신경망 모델은 이제 겹치는 필드와 테이블, 행 및 셀 수준 신뢰도를 지원합니다.
사용자 지정 인공신경망(사용자 지정 문서) 모델은 대규모 문서 컬렉션에 대해 학습된 딥 러닝 모델 및 기본 모델을 사용합니다. 그런 다음, 레이블이 지정된 데이터 세트를 사용하여 모델을 학습시킬 때 이 모델을 미세 조정하거나 데이터에 맞게 조정합니다. 사용자 지정 신경망 모델은 구조적, 반구조적 및 비구조적 문서에서 키 데이터 필드 추출을 지원합니다. 두 모델 유형 중에서 선택할 때 기능 요구 사항을 충족하는지 확인하기 위한 인공신경망 모델로 시작합니다. 사용자 지정 문서 모델에 대한 자세한 내용은 인공신경망 모델을 참조하세요.
사용자 지정 템플릿 모델
사용자 지정 템플릿 또는 사용자 지정 양식 모델은 일관된 시각적 템플릿을 사용하여 레이블이 지정된 데이터를 추출합니다. 문서의 시각적 구조의 차이는 모델의 정확도에 영향을 미칩니다. 설문지 또는 애플리케이션과 같은 구조화된 양식은 일관된 시각적 템플릿의 예입니다.
학습 집합은 서식 및 레이아웃이 정적이고 문서 인스턴스 간에 일정한 구조화된 문서로 구성됩니다. 사용자 지정 템플릿 모델은 키-값 쌍, 선택 표시, 테이블, 서명 필드 및 지역을 지원합니다. 템플릿 모델에는 지원되는 언어로 문서를 학습시킬 수 있습니다. 자세한 내용은 사용자 지정 템플릿 모델을 참조하세요.
문서 및 추출 시나리오의 언어가 사용자 지정 인공신경망 모델을 지원하는 경우 정확도를 높이기 위해 템플릿 모델보다 사용자 지정 신경망 모델을 사용하는 것이 좋습니다.
팁
학습 문서가 일관된 시각적 템플릿을 제공하는지 확인하려면 집합의 각 양식에서 사용자가 입력한 모든 데이터를 제거합니다. 빈 양식이 모양이 동일한 경우 일관된 시각적 템플릿을 나타냅니다.
자세한 내용은 사용자 지정 모델의 정확도 및 신뢰도 해석 및 개선을 참조하세요.
입력 요구 사항
최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.
지원 파일 형식:
모델 PDF 이미지: jpeg/jpg
,png
,bmp
,tiff
,heif
Microsoft Office:
Word(docx), Excel(xlsx), PowerPoint(pptx)읽기 ✔ ✔ ✔ 레이아웃 ✔ ✔ ✔ (2024-02-29-미리 보기, 2023-10-31-미리 보기 이상) 일반 문서 ✔ ✔ 사전 제작 ✔ ✔ 사용자 지정 추출 ✔ ✔ 사용자 지정 분류 ✔ ✔ ✔ ✱ Microsoft Office 파일은 현재 다른 모델 또는 버전에서 지원되지 않습니다.
PDF 및 TIFF의 경우 최대 2,000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).
문서 분석을 위한 파일 크기는 유료(S0) 계층의 경우 500MB, 무료(F0) 계층의 경우 4MB입니다.
이미지 크기는 50 x 50픽셀에서 10,000 x 10,000픽셀 사이여야 합니다.
PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.
추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150 인치당 도트 수에서 약
8
포인트 텍스트에 해당합니다.사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.
사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB, 신경망 모델의 경우 1G-MB입니다.
사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 최대 10,000페이지인
1GB
입니다.
최적의 학습 데이터
학습 입력 데이터는 모든 기계 학습 모델의 기초입니다. 모델의 품질, 정확도 및 성능을 결정합니다. 따라서 Document Intelligence 프로젝트에 사용할 수 있는 최상의 학습 입력 데이터를 만드는 것이 중요합니다. 문서 인텔리전스 사용자 지정 모델을 사용하는 경우 자체 학습 데이터를 제공합니다. 다음은 모델을 효과적으로 학습시키는 데 도움이 되는 몇 가지 팁입니다.
되도록이면 이미지 기반 PDF 대신 텍스트 기반을 사용합니다. 이미지*기반 PDF를 식별하는 한 가지 방법은 문서에서 특정 텍스트를 선택하는 것입니다. 텍스트의 전체 이미지만 선택할 수 있는 경우 문서는 텍스트 기반이 아닌 이미지 기반입니다.
각 형식(JPEG/JPG, PNG, BMP, PDF 또는 TIFF)에 대한 하위 폴더를 사용하여 학습 문서를 구성합니다.
사용 가능한 필드가 모두 완료된 양식을 사용합니다.
각 필드의 값이 서로 다른 양식을 사용합니다.
이미지의 품질이 낮은 경우 더 큰 데이터 세트(5개 이상의 학습 문서)를 사용합니다.
단일 모델을 사용해야 하는지 아니면 단일 모델로 구성된 여러 모델을 사용해야 하는지 확인합니다.
각 폴더가 고유한 템플릿인 폴더로 데이터 세트를 분할하는 것이 좋습니다. 폴더당 하나의 모델을 학습시키고 결과 모델을 단일 엔드포인트로 구성합니다. 단일 모델로 여러 형식을 분석하면 모델 정확도가 떨어질 수 있습니다.
양식에 서식 및 페이지 나누기를 사용하는 변형이 있는 경우 여러 모델을 학습하도록 데이터 세트를 분할하는 것이 좋습니다. 사용자 지정 양식은 일관된 시각적 템플릿을 사용합니다.
형식, 문서 형식 및 구조를 고려하여 균형 잡힌 데이터 세트가 있는지 확인합니다.
빌드 모드
build custom model
작업은 템플릿 및 인공신경망 사용자 지정 모델에 대한 지원을 추가합니다. 이전 버전의 REST API 및 클라이언트 라이브러리는 현재 템플릿 모드라고 알려진 단일 빌드 모드만 지원했습니다.
템플릿 모델은 동일한 기본 페이지 구조가 동일한(시각적 모양이 균일한) 문서 또는 문서 내 요소의 상대 위치가 동일한 문서만 허용합니다.
인공신경망 모델은 정보가 동일하지만 페이지 구조가 다른 문서를 지원합니다. 이러한 문서의 예로는 동일한 정보를 공유하지만 회사마다 모양이 다를 수 있는 미국 W2 양식이 있습니다.
이 표에서는 GitHub의 빌드 모드 프로그래밍 언어 SDK 참조 및 코드 샘플에 대한 링크를 제공합니다.
프로그래밍 언어 | SDK 참조 | 코드 샘플 |
---|---|---|
C#/.NET | DocumentBuildMode 구조체 | Sample_BuildCustomModelAsync.cs |
Java | DocumentBuildMode 클래스 | BuildModel.java |
JavaScript | DocumentBuildMode 유형 | buildModel.js |
Python | DocumentBuildMode 열거형 | sample_build_model.py |
모델 기능 비교
다음 표에서는 사용자 지정 템플릿과 사용자 지정 인공신경망 기능을 비교합니다.
기능 | 사용자 지정 템플릿(양식) | 사용자 지정 인공신경망(문서) |
---|---|---|
문서 구조 | 템플릿, 양식 및 정형 | 정형, 반정형 및 비정형 |
학습 시간 | 1~5분 | 20분~1시간 |
데이터 추출 | 키-값 쌍, 테이블, 선택 표시, 좌표 및 서명 | 키-값 쌍, 선택 표시 및 테이블 |
겹치는 필드 | 지원되지 않음 | 지원됨 |
문서 변형 | 각 변형당 모델 필요 | 모든 변형에 단일 모델 사용 |
언어 지원 | 언어 지원 사용자 지정 템플릿 | 언어 지원 사용자 지정 신경망 |
사용자 지정 분류 모델
문서 분류는 문서 인텔리전스 2023-07-31
(v3.1 GA) API에서 지원하는 새로운 시나리오입니다. 문서 분류자 API는 분류 및 분할 시나리오를 지원합니다. 분류 모델을 학습하여 애플리케이션이 지원하는 다양한 유형의 문서를 식별합니다. 분류 모델에 대한 입력 파일은 여러 문서를 포함할 수 있으며 연결된 페이지 범위 내에서 각 문서를 분류합니다. 자세한 내용은 사용자 지정 분류 모델을 참조하세요.
참고 항목
이제 2024-02-29-preview
API 버전 문서 분류부터 Office 문서 유형 분류를 지원합니다. 또한 이 API 버전은 분류 모델에 대한 증분 학습을 도입합니다.
사용자 지정 모델 도구
문서 인텔리전스 v3.1 이상 모델은 다음 도구, 애플리케이션, 프로그램 및 라이브러리를 지원합니다.
기능 | 리소스 | Model ID |
---|---|---|
사용자 지정 모델 | • 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK |
custom-model-id |
사용자 지정 모델 수명 주기
사용자 지정 모델의 수명 주기는 학습에 사용되는 API 버전에 따라 달라집니다. API 버전이 GA(일반 공급) 버전인 경우 사용자 지정 모델은 해당 버전과 동일한 수명 주기를 가집니다. API 버전이 더 이상 사용되지 않는 경우 사용자 지정 모델을 유추할 수 없습니다. API 버전이 미리 보기 버전인 경우 사용자 지정 모델은 API의 미리 보기 버전과 동일한 수명 주기를 가집니다.
문서 인텔리전스 v2.1은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.
참고 항목
사용자 지정 모델 유형 사용자 지정 신경망 및 사용자 지정 템플릿은 문서 인텔리전스 버전 v3.1 및 v3.0 API에서 사용할 수 있습니다.
기능 | 리소스 |
---|---|
사용자 지정 모델 | ● 문서 인텔리전스 레이블 지정 도구 • REST API • 클라이언트 라이브러리 SDK • 문서 인텔리전스 Docker 컨테이너 |
사용자 지정 모델 빌드
사용자 지정 모델을 사용하여 특정 또는 고유한 문서에서 데이터를 추출합니다. 다음 리소스가 필요합니다.
Azure 구독 무료로 하나를 만들 수 있습니다.
Azure Portal의 Document Intelligence 인스턴스입니다. 무료 가격 책정 계층(
F0
)을 사용하여 서비스를 시도할 수 있습니다. 리소스가 배포된 후 리소스로 이동을 선택하여 키 및 엔드포인트를 가져옵니다.
샘플 레이블 지정 도구
팁
- 향상된 환경과 고급 모델 품질을 원하시면 문서 인텔리전스 v3.0 스튜디오를 사용해 보세요.
- v3.0 Studio는 v2.1 레이블이 지정된 데이터로 학습된 모든 모델을 지원합니다.
- v2.1에서 v3.0으로 마이그레이션하는 방법에 대한 자세한 내용은 API 마이그레이션 가이드를 참조하세요.
- REST API 또는 C#, Java, JavaScript 또는 Python SDK를 참조하세요. /quickstarts를 사용하여 v3.0 버전을 시작합니다.
문서 인텔리전스 샘플 레이블 지정 도구는 문서 인텔리전스 및 OCR(광학 인식) 기능의 최신 기능을 테스트할 수 있는 오픈 소스 도구입니다.
사용자 지정 모델 구축 및 사용을 시작하려면 샘플 레이블 지정 도구 빠른 시작을 사용해 보세요.
문서 인텔리전스 스튜디오
참고 항목
문서 인텔리전스 스튜디오는 v3.1 및 v3.0 API와 함께 사용할 수 있습니다.
문서 인텔리전스 스튜디오 홈페이지에서 사용자 지정 추출 모델을 선택합니다.
내 프로젝트 아래에서 프로젝트 만들기를 선택합니다.
프로젝트 세부 정보 필드를 완료합니다.
스토리지 계정 및 Blob 컨테이너를 추가하여 학습 데이터 원본을 연결하는 방식으로 서비스 리소스를 구성합니다.
프로젝트를 검토하고 만듭니다.
샘플 문서를 추가하여 사용자 지정 모델에 레이블을 지정하고, 빌드하고, 테스트합니다.
첫 번째 사용자 지정 추출 모델을 만드는 자세한 연습은 사용자 지정 추출 모델을 만드는 방법을 참조하세요.
사용자 지정 모델 추출 요약
이 표에서는 지원되는 데이터 추출 영역을 비교합니다.
모델 | 양식 필드 | 선택 표시 | 정형 필드(테이블) | 서명 | 지역 레이블 지정 | 겹치는 필드 |
---|---|---|---|---|---|---|
사용자 지정 템플릿 | ✔ | ✔ | ✔ | ✔ | ✔ | n/a |
사용자 지정 인공신경망 | ✔ | ✔ | ✔ | n/a | * | ✔ (2024-02-29-미리 보기) |
테이블 기호:
✔—지원
**n/a—현재 사용할 수 없음;
*-모델에 따라 다르게 동작합니다. 템플릿 모델을 사용하면 학습 시 합성 데이터가 생성됩니다. 인공신경망 모델을 사용하면 지역에서 인식된 종료 텍스트가 선택됩니다.
팁
두 모델 유형 중에서 선택할 때 기능 요구 사항을 충족하는 경우 사용자 지정 인공신경망 모델로 시작합니다. 사용자 지정 인공신경망 모델에 대한 자세한 내용은 사용자 지정 인공신경망을 참조하세요.
사용자 지정 모델 개발 옵션
다음 표에서는 연결된 도구 및 클라이언트 라이브러리에서 사용할 수 있는 기능에 대해 설명합니다. 모범 사례는 여기에 나열된 호환되는 도구를 사용하는 것입니다.
Document type | REST API | SDK | 모델 레이블 지정 및 테스트 |
---|---|---|---|
사용자 지정 템플릿 v 4.0 v3.1 v3.0 | Document Intelligence 3.1 | Document Intelligence SDK | Document Intelligence Studio |
사용자 지정 인공신경망 v4.0 v3.1 v3.0 | Document Intelligence 3.1 | Document Intelligence SDK | Document Intelligence Studio |
사용자 지정 양식 v2.1 | 문서 인텔리전스 2.1 GA API | 문서 인텔리전스 SDK | 샘플 레이블 지정 도구 |
참고 항목
3.0 API를 사용하여 학습된 사용자 지정 템플릿 모델은 OCR 엔진의 향상된 기능으로 인해 2.1 API보다 몇 가지 개선 사항이 있습니다. 2.1 API를 사용하여 사용자 지정 템플릿 모델을 학습시키는 데 사용된 데이터 세트는 여전히 3.0 API를 사용하여 새 모델을 학습시키는 데 사용할 수 있습니다.
최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.
지원되는 파일 형식은 JPEG/JPG, PNG, BMP, TIFF 및 PDF(텍스트 포함 또는 검사)입니다. 텍스트 포함 PDF는 문자 추출 및 위치에 오류가 발생할 가능성을 제거하는 데 가장 좋습니다.
PDF 및 TIFF 파일의 경우 최대 2,000페이지를 처리할 수 있습니다. 무료 계층 구독이 있는 경우 처음 두 페이지만 처리됩니다.
파일 크기는 유료(S0) 계층의 경우 500MB 미만, 무료(F0) 계층의 경우 4MB 미만이어야 합니다.
이미지 차원은 50 x 50 픽셀에서 10,000 x 10,000 픽셀 사이여야 합니다.
PDF 크기는 Legal 또는 A3 용지 크기 이하에 해당하는 최대 17 x 17인치입니다.
학습 데이터 세트의 총 크기는 500페이지 이하입니다.
PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.
팁
학습 데이터:
- 가능하면 이미지 기반 문서 대신 텍스트 기반 PDF 문서를 사용합니다. 스캔한 PDF는 이미지로 처리됩니다.
- 문서당 하나의 양식 인스턴스만 제공합니다.
- 채워진 양식의 경우 모든 필드가 채워진 예제를 사용합니다.
- 각 필드에 서로 다른 값이 있는 양식을 사용합니다.
- 양식 이미지의 품질이 낮은 경우 더 큰 데이터 세트를 사용합니다. 예를 들어 10~15개의 이미지를 사용합니다.
지원되는 언어 및 로캘
지원되는 모든 언어 목록은 언어 지원 - 사용자 지정 모델 페이지를 참조하세요.
다음 단계
문서 인텔리전스 샘플 레이블 지정 도구를 사용하여 사용자 고유의 양식 및 문서를 처리해 보세요.
Document Intelligence 빠른 시작을 완료하고 원하는 개발 언어로 문서 처리 앱 만들기를 시작해 보세요.
문서 인텔리전스 스튜디오를 사용하여 사용자 고유의 양식 및 문서를 처리해 보세요.
Document Intelligence 빠른 시작을 완료하고 원하는 개발 언어로 문서 처리 앱 만들기를 시작해 보세요.