어떤 모델을 선택해야 하나요?
Important
- 문서 인텔리전스 공개 미리 보기 릴리스에서는 현재 개발 중인 기능에 대한 조기 액세스를 제공합니다.
- 기능, 방식 및 프로세스는 GA(일반 공급) 전에 사용자 피드백에 따라 변경될 수 있습니다.
- 문서 인텔리전스 클라이언트 라이브러리의 공개 미리 보기 버전은 기본적으로 REST API 버전 2024-02-29-미리 보기로 설정됩니다.
- 공개 미리 보기 버전 2024-02-29-미리 보기는 현재 다음 Azure 지역에서만 사용할 수 있습니다.
- 미국 동부
- 미국 서부2
- 서유럽
이 콘텐츠의 적용 대상:v3.1(GA) | 최신 버전:v4.0(미리 보기) | 이전 버전:v3.0
이 콘텐츠의 적용 대상:v3.0(GA) | 최신 버전:v4.0(미리 보기)v3.1
Azure AI 문서 인텔리전스는 애플리케이션에 지능형 문서 처리를 추가하고 워크플로를 최적화할 수 있는 다양한 모델을 지원합니다. 올바른 모델을 선택하는 것은 기업의 성공을 보장하는 데 필수적입니다. 이 문서에서는 사용 가능한 문서 인텔리전스 모델을 살펴보고 프로젝트에 가장 적합한 솔루션을 선택하는 방법에 대한 지침을 제공합니다.
다음 의사 결정 차트는 각 문서 인텔리전스 v3.0 지원 모델의 기능을 강조하고 애플리케이션의 요구 사항에 가장 적합한 모델을 선택하는 데 도움이 됩니다.
Important
지원되는 언어 텍스트와 기능별 필드 추출은 언어 지원 페이지를 확인합니다.
미리 학습된 문서 분석 모델
Document type | 예시 | 추출할 데이터 | 최적의 솔루션 |
---|---|---|---|
일반 문서. | 계약서 또는 서신. | 주로 서면 또는 인쇄된 텍스트 줄, 단어, 위치 및 검색된 언어를 추출하려고 합니다. | OCR 모델 읽기 |
구조적 정보가 포함된 문서. | 보고서 또는 연구. | 서면 또는 인쇄된 텍스트 외에도 테이블, 선택 표시, 단락, 제목, 머리글 및 부제목과 같은 구조적 정보를 추출해야 합니다. | 레이아웃 분석 모델 |
필드(키) 및 값 형식의 콘텐츠를 포함하는 구조화된 또는 반구조화된 문서입니다. | 신용 신청서나 설문 조사와 같이 비즈니스나 업계에서 일반적으로 사용되는 표준화된 형식인 양식 또는 문서입니다. | 사용자 지정 모델을 학습시킬 필요 없이 미리 빌드된 시나리오별 모델에서 다루지 않는 필드와 값을 추출할 수 있습니다. | **선택적 쿼리 문자열 매개 변수 features=keyValuePairs 가 사용하도록 설정된 모델 ** |
미리 학습된 시나리오별 모델
Document type | 추출할 데이터 | 최적의 솔루션 |
---|---|---|
미국 W-2 세금 양식 | 급여, 임금, 원천징수된 세금과 같은 주요 정보를 추출하려고 합니다. | 미국 세금 W-2 모델 |
미국 세금 1098 양식 | 원금, 포인트 및 세금과 같은 모기지 이자 세부 정보를 추출하려고 합니다. | 미국 세금 1098 양식 |
미국 세금 1098-E 양식 | 대출 및 이자 금액과 같은 학자금 대출 이자 세부 정보를 추출하려고 합니다. | 미국 세금 1098-E 양식 |
미국 세금 1098T 양식 | 장학금 조정, 학생 상태 및 대출 정보와 같은 정규 장학금 세부 정보를 추출하려고 합니다. | 미국 세금 1098-T 모드 |
미국 세금 1099(변형) 양식 | 1099 양식 및 해당 변형(A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)에서 정보를 추출하려고 합니다. |
미국 세금 1099 양식 |
미국 세금 1040(변형) 양식 | 1040 양식 및 해당 변형(일정 1, 일정 2, 일정 3, 일정 8812, 일정 A, 일정 B, 일정 C, 일정 D, 일정 E, 일정 E, 일정 EIC, 일정 F, 일정 H, 일정 J, 일정 R, 일정 SE, 일정 선임)에서 정보를 추출하려고 합니다. |
미국 세금 1040 모델 |
계약(당사자 간의 법적 계약) | 당사자, 날짜 및 간격과 같은 계약 세부 정보를 추출하려고 합니다. | 계약 모델 |
건강 보험 카드 또는 건강 보험 ID. | 보험사, 멤버 ID, 처방 보장 범위, 그룹 번호 등 주요 정보를 추출하려고 합니다. | 의료 보험 카드 모델 |
신용 또는 직불 카드 | 카드 번호 및 은행 이름과 같은 주요 정보 은행 카드를 추출하려고 합니다. | 신용/직불 카드 모델 |
결혼 인증서 . | 결혼 증명서에서 주요 정보를 추출하려고 합니다. | 결혼 인증서 모델 |
청구서 또는 청구서. | 고객 이름, 청구 주소, 미청구 금액과 같은 주요 정보를 추출하려고 합니다. | 청구서 모델 |
영수증, 바우처 또는 단일 페이지 호텔 영수증. | 가맹점명, 거래 일자, 거래 총액 등 주요 정보를 추출하고자 합니다. | 영수증 모델 |
미국 운전면허증이나 국가별 여권과 같은 신분증(ID)입니다. | 이름, 성, 생년월일, 주소 및 서명과 같은 주요 정보를 추출하려고 합니다. | ID 문서(ID) 모델 |
미국 모기지 1003 . | Uniform Residential Loan 애플리케이션에서 주요 정보를 추출하려고 합니다. | 1003 양식 모델 |
미국 모기지 1008 . | Uniform Underwriting and Transmittal 요약에서 키 정보를 추출하려고 합니다. | 1008 양식 모델 |
미국 모기지 마감 공시 . | 모기지 마감 공시 양식에서 주요 정보를 추출하려고 합니다. | 모기지 마감 공시 양식 모델 |
구조화된 요소, 반구조화된 요소 및/또는 구조화되지 않은 요소가 포함된 혼합 형식 문서. | 키-값 쌍, 선택 표시, 테이블, 서명 필드 및 사전 구축 또는 일반 문서 모델에서 추출하지 않은 선택된 영역을 추출할 수 있습니다. | 사용자 지정 모델 |
팁
- 어떤 미리 학습된 모델을 사용할지 아직 확실하지 않은 경우 선택적 쿼리 문자열 매개 변수
features=keyValuePairs
가 사용하도록 설정된 레이아웃 모델을 사용해 보세요. - 레이아웃 모델은 읽기 OCR 엔진을 통해 페이지, 표, 스타일, 텍스트, 줄, 단어, 위치 및 언어를 검색합니다.
사용자 지정 추출 모델
학습 집합 | 문서 예 | 최적의 솔루션 |
---|---|---|
정적 레이아웃을 갖춘 구조화되고 일관된 문서. | 설문지나 애플리케이션과 같은 구조화된 형태. | 사용자 지정 템플릿 모델 |
정형, 반정형 및 비정형 문서. | ● 구조화 → 설문 조사 ● 반구조화 → 청구서 ● 구조화되지 않음 → 서신 |
사용자 지정 신경망 모델 |
유사한 형식의 문서에 대해 각각 학습된 여러 모델의 컬렉션입니다. | ● 공급 구매 주문서 ● 장비 구매 주문서 ● 가구 구매 주문서 모두 단일 모델로 구성됩니다. |
구성형 사용자 지정 모델 |
사용자 지정 분류 모델
학습 집합 | 문서 예 | 최적의 솔루션 |
---|---|---|
최소 두 가지 유형의 문서 | 양식, 문자 또는 문서 | 사용자 지정 분류 모델 |
다음 단계
- 문서 인텔리전스 스튜디오를 사용하여 고유의 양식과 문서를 처리하는 방법을 알아봅니다.
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기