어떤 모델을 선택해야 하나요?
Important
- 문서 인텔리전스 공개 미리 보기 릴리스에서는 현재 개발 중인 기능에 대한 조기 액세스를 제공합니다. 기능, 방식 및 프로세스는 GA(일반 공급) 전에 사용자 피드백에 따라 변경될 수 있습니다.
- 문서 인텔리전스 클라이언트 라이브러리의 공개 미리 보기 버전은 기본적으로 REST API 버전 2024-07-31-preview입니다.
- 공개 미리 보기 버전 2024-07-31-preview는 현재 다음 Azure 지역에서만 사용할 수 있습니다. AI Studio의 사용자 지정 생성(문서 필드 추출) 모델은 미국 중북부 지역에서만 사용할 수 있습니다.
- 미국 동부
- 미국 서부2
- 서유럽
- 미국 중북부
Azure AI 문서 인텔리전스는 애플리케이션에 지능형 문서 처리를 추가하고 워크플로를 최적화할 수 있는 다양한 모델을 지원합니다. 올바른 모델을 선택하는 것은 기업의 성공을 보장하는 데 필수적입니다. 이 문서에서는 사용 가능한 문서 인텔리전스 모델을 살펴보고 프로젝트에 가장 적합한 솔루션을 선택하는 방법에 대한 지침을 제공합니다.
다음 의사 결정 차트는 애플리케이션의 요구 사항과 요구 사항을 가장 잘 충족하는 모델을 선택할 수 있도록 지원되는 각 모델의 기능을 강조 표시합니다.
Important
지원되는 언어 텍스트와 기능별 필드 추출은 언어 지원 페이지를 확인합니다.
미리 학습된 문서 분석 모델
Document type | 예시 | 추출할 데이터 | 최적의 솔루션 |
---|---|---|---|
일반 문서. | 계약서 또는 서신. | 주로 서면 또는 인쇄된 텍스트 줄, 단어, 위치 및 검색된 언어를 추출하려고 합니다. | OCR 모델 읽기 |
구조적 정보가 포함된 문서. | 보고서 또는 연구. | 서면 또는 인쇄된 텍스트 외에도 테이블, 선택 표시, 단락, 제목, 머리글 및 부제목과 같은 구조적 정보를 추출해야 합니다. | 레이아웃 분석 모델 |
필드(키) 및 값 형식의 콘텐츠를 포함하는 구조화된 또는 반구조화된 문서입니다. | 신용 신청서나 설문 조사와 같이 비즈니스나 업계에서 일반적으로 사용되는 표준화된 형식인 양식 또는 문서입니다. | 사용자 지정 모델을 학습시킬 필요 없이 미리 빌드된 시나리오별 모델에서 다루지 않는 필드와 값을 추출할 수 있습니다. | **선택적 쿼리 문자열 매개 변수 features=keyValuePairs 가 사용하도록 설정된 모델 ** |
미리 학습된 시나리오별 모델
Document type | 추출할 데이터 | 최적의 솔루션 |
---|---|---|
미국 통합세 | 사용자 고유의 사용자 지정 분류를 실행하지 않고 단일 파일에서 모든 세금 형식의 W2, 1040, 1090, 1098에서 키 정보를 추출하려고 합니다. | 미국 통합 세금 모델 |
미국 세금 W-2 세금 | 급여, 임금, 원천징수된 세금과 같은 주요 정보를 추출하려고 합니다. | 미국 세금 W-2 모델 |
미국 세금 1098 | 원금, 포인트 및 세금과 같은 모기지 이자 세부 정보를 추출하려고 합니다. | 미국 세금 1098 양식 |
미국 세금 1098-E | 대출 및 이자 금액과 같은 학자금 대출 이자 세부 정보를 추출하려고 합니다. | 미국 세금 1098-E 양식 |
미국 세금 1098T | 장학금 조정, 학생 상태 및 대출 정보와 같은 정규 장학금 세부 정보를 추출하려고 합니다. | 미국 세금 1098-T 모드 |
미국 세금 1099(변형) | 1099 양식 및 해당 변형(A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)에서 정보를 추출하려고 합니다. |
미국 세금 1099 양식 |
미국 세금 1040(변형) | 1040 양식 및 해당 변형(일정 1, 일정 2, 일정 3, 일정 8812, 일정 A, 일정 B, 일정 C, 일정 D, 일정 E, 일정 E, 일정 EIC , 일정 F, 일정 H, 일정 J, 일정 R, 일정 SE , 일정 선임)에서 정보를 추출하려고 합니다. |
미국 세금 1040 모델 |
은행 거래 명세서 | 미국 은행 명세서에서 주요 정보를 추출하려고 합니다. | \은행 거래 명세서 |
은행 수표 | 확인 문서에서 키 정보를 추출하려고 합니다. | 은행 수표 |
계약(당사자 간의 법적 계약) | 당사자, 날짜 및 간격과 같은 계약 세부 정보를 추출하려고 합니다. | 계약 모델 |
건강 보험 카드 또는 건강 보험 ID. | 보험사, 멤버 ID, 처방 보장 범위, 그룹 번호 등 주요 정보를 추출하려고 합니다. | 의료 보험 카드 모델 |
신용/직불 카드 | 카드 번호 및 은행 이름과 같은 주요 정보 은행 카드를 추출하려고 합니다. | 신용/직불 카드 모델 |
결혼 증명서 | 결혼 증명서에서 주요 정보를 추출하려고 합니다. | 결혼 인증서 모델 |
청구서 또는 청구서 | 고객 이름, 청구 주소, 미청구 금액과 같은 주요 정보를 추출하려고 합니다. | 청구서 모델 |
영수증, 바우처 또는 단일 페이지 호텔 영수증. | 가맹점명, 거래 일자, 거래 총액 등 주요 정보를 추출하고자 합니다. | 영수증 모델 |
미국 운전면허증이나 국가별 여권과 같은 신분증(ID)입니다. | 이름, 성, 생년월일, 주소 및 서명과 같은 주요 정보를 추출하려고 합니다. | ID 문서(ID) 모델 |
급여 명세서 | 급여 스텁 문서에서 키 정보를 추출하려고 합니다. | 급여 명세서 모델 |
미국 모기지 1003 | Uniform Residential Loan 애플리케이션에서 주요 정보를 추출하려고 합니다. | 1003 양식 모델 |
미국 모기지 1004 | URAR(Uniform Residential Appraisal Report)에서 주요 정보를 추출하려고 합니다. | 1004 양식 모델 |
미국 모기지 1005 | 고용 확인 양식에서 주요 정보를 추출하려고 합니다. | 1005 양식 모델 |
미국 모기지 1008 | Uniform Underwriting and Transmittal 요약에서 키 정보를 추출하려고 합니다. | 1008 양식 모델 |
미국 모기지 마감 공시 | 모기지 마감 공시 양식에서 주요 정보를 추출하려고 합니다. | 모기지 마감 공시 양식 모델 |
정형 요소, 반정형 요소 및/또는 비정형 요소가 포함된 혼합 형식 문서. | 키-값 쌍, 선택 표시, 테이블, 서명 필드 및 사전 구축 또는 일반 문서 모델에서 추출하지 않은 선택된 영역을 추출할 수 있습니다. | 사용자 지정 모델 |
팁
- 어떤 미리 학습된 모델을 사용할지 아직 확실하지 않은 경우 선택적 쿼리 문자열 매개 변수
features=keyValuePairs
가 사용하도록 설정된 레이아웃 모델을 사용해 보세요. - 레이아웃 모델은 읽기 OCR 엔진을 통해 페이지, 표, 스타일, 텍스트, 줄, 단어, 위치 및 언어를 검색합니다.
사용자 지정 추출 모델
학습 집합 | 문서 예 | 최적의 솔루션 |
---|---|---|
정적 레이아웃을 갖춘 구조화되고 일관된 문서. | 설문지나 애플리케이션과 같은 구조화된 형태. | 사용자 지정 템플릿 모델 |
정형 및 반정형. | ● 정형 → 설문 조사 ● 반정형 → 청구서 |
사용자 지정 신경망 모델 |
비정형 문서, 다양한 템플릿이 있는 문서. | ● 계약이나 편지와 같은 비정형 문서 ● 다른 모기지 회사의 대출 명세서와 같은 다양한 문서 서식 파일 |
사용자 지정 생성 모델 |
유사한 형식의 문서에 대해 각각 학습된 여러 모델의 컬렉션입니다. | ● 공급 구매 주문서 ● 장비 구매 주문서 ● 가구 구매 주문서 모두 단일 모델로 구성됩니다. |
구성형 사용자 지정 모델 |
사용자 지정 분류 모델
학습 집합 | 문서 예 | 최적의 솔루션 |
---|---|---|
최소 두 가지 유형의 문서 | 양식, 문자 또는 문서 | 사용자 지정 분류 모델 |
다음 단계
- 문서 인텔리전스 스튜디오를 사용하여 고유의 양식과 문서를 처리하는 방법을 알아봅니다.