다음을 통해 공유


문서 인텔리전스 일반 문서 모델

Important

2024-02-29-미리 보기, 2023-10-31-미리 보기 문서 인텔리전스 버전부터 일반 문서 모델(미리 빌드된 문서)은 더 이상 사용되지 않습니다. 키-값 쌍, 선택 표시, 텍스트, 테이블 및 구조를 추출하려면 다음 모델을 사용하세요.

기능 version Model ID
선택적 쿼리 문자열 매개 변수 features=keyValuePairs가 사용하도록 설정된 Layout 모델. • v4:2024-02-29-미리 보기
• v3.1:2023-07-31 (GA)
prebuilt-layout
일반 문서 모델 • v3.1:2023-07-31(GA)
• v3.0:2022-08-31(GA)
• v2.1(GA)
prebuilt-document

이 콘텐츠의 적용 대상은 다음과 같습니다. 확인 표시 v3.1(GA) | 최신 버전: 보라색 확인 표시 v4.0(미리 보기) | 이전 버전: 파란색 확인 표시 v3.0

이 콘텐츠의 적용 대상:확인 표시v3.0(GA) | 최신 버전:보라색 확인 표시v4.0(미리 보기)보라색 확인 표시v3.1

일반 문서 모델은 강력한 OCR(광학 인식) 기능을 딥 러닝 모델과 결합하여 문서에서 키-값 쌍, 테이블, 선택 표시를 추출합니다. 일반 문서는 v3.1 및 v3.0 API에서 사용할 수 있습니다. 자세한 내용은 마이그레이션 가이드를 참조하세요.

일반 문서 기능

  • 일반 문서 모델은 미리 학습된 모델이며 레이블이나 학습이 필요하지 않습니다.

  • 단일 API는 문서에서 키-값 쌍, 선택 표시, 텍스트, 테이블 및 구조를 추출합니다.

  • 일반 문서 모델은 구조화, 반구조화 및 구조화되지 않은 문서를 지원합니다.

  • 선택 표시는 값이 :selected: 또는 :unselected: 필드로 식별됩니다.

문서 인텔리전스 스튜디오에서 처리된 샘플 문서

문서 인텔리전스 스튜디오의 일반 문서 분석 스크린샷.

키-값 쌍 추출

일반 문서 API는 대부분의 양식 형식을 지원하며 문서를 분석하고 키 및 관련 값을 추출합니다. 문서에서 일반적인 키-값 쌍을 추출하는 데 이상적입니다. 레이블 없이 사용자 지정 모델을 학습하는 대신 일반적인 문서 모델을 사용할 수 있습니다.

개발 옵션

문서 인텔리전스 v3.1은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.

기능 리소스 Model ID
일반 문서 모델 문서 인텔리전스 스튜디오
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-document

문서 인텔리전스 v3.0은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.

기능 리소스 Model ID
일반 문서 모델 문서 인텔리전스 스튜디오
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-document

입력 요구 사항

  • 지원 파일 형식:

    모델 PDF 이미지:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word(DOCX), Excel(XLSX), PowerPoint(PPTX), HTML
    읽기
    레이아웃 ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    일반 문서
    사전 제작
    사용자 지정 추출
    사용자 지정 분류 ✔ (2024-07-31-preview, 2024-02-29-preview)
  • 최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.

  • PDF 및 TIFF의 경우 최대 2,000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).

  • 문서를 분석하기 위한 파일 크기는 유료(S0) 계층의 경우 500MB이고 무료(F0) 계층의 경우 4MB입니다.

  • 이미지 크기는 50픽셀 x 50픽셀에서 10,000픽셀 x 10,000픽셀 사이여야 합니다.

  • PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.

  • 추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150DPI(인치당 도트 수)에서 약 8점 텍스트에 해당합니다.

  • 사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.

    • 사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB이고 인공신경망 모델의 경우 1GB입니다.

    • 사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 1GB이고 최대 10,000페이지입니다. 2024-07-31-preview 및 이후 버전의 경우 학습 데이터의 총 크기는 2GB이고 최대 10,000페이지입니다.

일반 문서 모델 데이터 추출

문서 인텔리전스 스튜디오를 사용하여 양식 및 문서에서 데이터를 추출해 보세요.

다음 리소스가 필요합니다.

  • Azure 구독은 무료로 만들 수 있습니다.

  • Azure Portal의 Document Intelligence 인스턴스입니다. 무료 가격 책정 계층(F0)을 사용하여 서비스를 시도할 수 있습니다. 리소스가 배포된 후 리소스로 이동을 선택하여 키 및 엔드포인트를 가져옵니다.

Azure Portal에서 키 및 엔드포인트 위치의 스크린샷

참고 항목

문서 인텔리전스 스튜디오 및 일반 문서 모델은 v3.0 API에서 사용할 수 있습니다.

  1. 문서 인텔리전스 스튜디오 홈페이지에서 일반 문서를 선택합니다.

  2. 샘플 문서를 분석하거나 자체 파일을 업로드할 수 있습니다.

  3. 분석 실행 버튼을 선택하고 필요한 경우 분석 옵션을 구성합니다.

    문서 인텔리전스 스튜디오의 분석 실행과 분석 옵션 버튼 스크린샷.

키-값 쌍

키-값 쌍은 레이블 또는 키 및 이와 관련된 응답 또는 값을 식별하는 문서 내의 특정 범위입니다. 구조화된 양식에서 이러한 쌍은 레이블 및 사용자가 해당 필드에 입력한 값일 수 있습니다. 구조화되지 않은 문서에서는 단락의 텍스트를 기준으로 계약이 실행된 날짜일 수 있습니다. AI 모델은 다양한 문서 유형, 형식 및 구조를 기반으로 식별 가능한 키와 값을 추출하도록 학습되었습니다.

모델이 연결된 값이 없는 키가 존재하는 것을 감지하거나 선택적 필드를 처리할 때는 키가 격리되어 있을 수도 있습니다. 예를 들어 경우에 따라 양식에서 중간 이름 필드를 비워 둘 수 있습니다. 키-값 쌍은 문서에 포함된 텍스트 범위입니다. 동일한 값이 다른 방식으로 설명되는 문서(예: 고객/사용자)가 있는 경우 연관된 키는 컨텍스트에 따라 고객 또는 사용자가 됩니다.

데이터 추출

모델 텍스트 추출 키/값 쌍 선택 표시 테이블 일반 이름
일반 문서

✓* - 2023-07-31(v3.1 GA) 이상 API 버전에서만 사용할 수 있습니다.

지원되는 언어 및 로캘

지원되는 언어의 전체 목록은 언어 지원 - 문서 분석 모델 페이지를 참조하세요.

고려 사항

  • 키는 문서에서 추출된 텍스트의 범위이므로 반구조화된 문서의 경우 키를 기존 키 사전에 매핑해야 합니다.

  • 키가 있지만 값이 없는 키-값 쌍을 볼 것으로 예상합니다. 예를 들어 사용자가 양식에 이메일 주소를 제공하지 않기로 선택한 경우입니다.

다음 단계