문서 인텔리전스 추가 기능

Important

  • 문서 인텔리전스 공개 미리 보기 릴리스에서는 현재 개발 중인 기능에 대한 조기 액세스를 제공합니다.
  • 기능, 방식 및 프로세스는 GA(일반 공급) 전에 사용자 피드백에 따라 변경될 수 있습니다.
  • 문서 인텔리전스 클라이언트 라이브러리의 공개 미리 보기 버전은 기본적으로 REST API 버전 2024-02-29-미리 보기로 설정됩니다.
  • 공개 미리 보기 버전 2024-02-29-미리 보기는 현재 다음 Azure 지역에서만 사용할 수 있습니다.
  • 미국 동부
  • 미국 서부2
  • 서유럽

이 콘텐츠 적용 대상:확인 표시v4.0(미리 보기) | 이전 버전:파란색 확인 표시v3.1(GA)

이 콘텐츠 적용 대상:확인 표시v3.1(GA) | 최신 버전:보라색 확인 표시v4.0(미리 보기)

참고 항목

추가 기능은 비즈니스 카드 모델을 제외한 모든 모델 내에서 사용할 수 있습니다.

문서 인텔리전스는 더욱 정교한 모듈식 분석 기능을 지원합니다. 추가 기능을 사용하여 문서에서 추출된 더 많은 기능이 포함되도록 결과를 확장합니다. 일부 추가 기능에서는 추가 비용이 발생합니다. 이러한 선택적 기능을 문서 추출 시나리오에 따라 사용하거나 사용하지 않도록 설정할 수 있습니다. 기능을 사용하도록 설정하려면 연결된 기능 이름을 features 쿼리 문자열 속성에 추가합니다. 쉼표로 구분된 기능 목록을 제공하여 요청에서 추가 기능을 2개 이상 사용하도록 설정할 수 있습니다. 다음 추가 기능은 2023-07-31 (GA) 이상 릴리스에 사용 가능합니다.

참고 항목

일부 추가 기능만 모든 모델에서 지원됩니다. 자세한 내용은 모델 데이터 추출을 참조하세요.

다음 추가 기능은 2024-02-29-preview, 2024-02-29-preview 및 이후 릴리스에 사용할 수 있습니다.

참고 항목

2023-10-30-preview API의 쿼리 필드 구현은 마지막 미리 보기 릴리스와 다릅니다. 새 구현은 비용이 적게 들고 구조화된 문서에서 잘 작동합니다.

추가 기능 추가 기능/무료 2024-02-29-preview 2023-07-31(GA) 2022-08-31(GA) v2.1(GA)
Font 속성 추출 추가 기능 ✔️ ✔️ 해당 없음 해당 없음
수식 추출 추가 기능 ✔️ ✔️ 해당 없음 해당 없음
고해상도 추출 추가 기능 ✔️ ✔️ 해당 없음 해당 없음
바코드 추출 Free ✔️ ✔️ 해당 없음 해당 없음
언어 감지 Free ✔️ ✔️ 해당 없음 해당 없음
키 값 쌍 Free ✔️ 해당 없음 해당 없음 해당 없음
쿼리 필드 추가 기능* ✔️ 해당 없음 해당 없음 해당 없음

추가 기능* - 쿼리 필드 가격은 다른 추가 기능과 다르게 책정됩니다. 자세한 내용은 가격 책정을 참조하세요.

고해상도 추출

엔지니어링 드로잉과 같은 대형 문서에서 작은 텍스트를 인식하는 작업은 어려운 일입니다. 텍스트가 다른 그래픽 요소와 혼합되어 있는 경우가 많으며 글꼴, 크기 및 방향이 다양합니다. 또한 텍스트를 별도의 부분으로 나누거나 다른 기호와 연결할 수 있습니다. 이제 문서 인텔리전스는 ocr.highResolution 기능을 사용하여 이런 유형의 문서에서 콘텐츠 추출을 지원합니다. 이 추가 기능 기능을 사용하도록 설정하면 A1/A2/A3 문서에서 콘텐츠 추출 품질이 향상됩니다.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

수식 추출

ocr.formula 기능은 formulas 컬렉션의 수학적 수식과 같은 식별된 모든 수식을 content 아래의 최상위 개체로 추출합니다. content 내부에서 검색된 수식은 :formula:로 표시됩니다. 이 컬렉션의 각 항목은 수식 형식을 inline 또는 display로 포함하고 해당 polygon 좌표와 함께 LaTeX 표현을 value로 포함하는 수식을 나타냅니다. 처음에는 수식이 각 페이지의 끝에 표시됩니다.

참고 항목

confidence 점수는 하드 코딩됩니다.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Font 속성 추출

ocr.font 기능은 styles 컬렉션에서 추출된 텍스트의 모든 글꼴 속성을 content 아래의 최상위 개체로 추출합니다. 각 스타일 개체는 단일 글꼴 속성, 적용되는 텍스트 범위 및 해당 신뢰도 점수를 지정합니다. 기존 스타일 속성은 텍스트의 글꼴의 경우 similarFontFamily, 기울임꼴 및 일반 스타일의 경우 fontStyle, 굵게 또는 일반 스타일의 경우 fontWeight, 텍스트 색의 경우 color, 텍스트 경계 상자의 색의 경우 backgroundColor와 같은 더 많은 글꼴 속성으로 확장됩니다.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

바코드 속성 추출

ocr.barcode 기능은 barcodes 컬렉션에서 식별된 모든 바코드를 content 아래의 최상위 개체로 추출합니다. content 내에서 검색된 바코드는 :barcode:로 표시됩니다. 이 컬렉션의 각 항목은 바코드를 나타내며 바코드 형식을 kind로, 포함된 바코드 콘텐츠를 valuepolygon 좌표로 포함합니다. 처음에는 바코드가 각 페이지의 끝에 표시됩니다. confidence는 1로 하드 코딩됩니다.

지원되는 바코드 유형

바코드 유형 예제
QR Code QR 코드의 스크린샷
Code 39 코드 39의 스크린샷.
Code 93 코드 93의 스크린샷
Code 128 코드 128의 스크린샷.
UPC (UPC-A & UPC-E) UPC의 스크린샷.
PDF417 PDF417의 스크린샷.
EAN-8 유럽 문서 번호 바코드 ean-8의 스크린샷
EAN-13 유럽 문서 번호 바코드 ean-13의 스크린샷
Codabar Codabar의 스크린샷
Databar 의 스크린샷
Databar Expanded Data bar Expanded의 스크린샷
ITF ITF(Interleaved-Two-of-Five) 바코드의 스크린샷
Data Matrix Data Matrix의 스크린샷

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

언어 감지

languages 기능을 analyzeResult 요청에 추가하면 analyzeResultlanguages 컬렉션에서 confidence와 함께 텍스트 줄마다 검색된 기본 언어가 예측됩니다.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

키-값 쌍

이전 API 버전에서 미리 빌드된 문서 모델은 양식과 문서에서 키-값 쌍을 추출했습니다. keyValuePairs 기능이 미리 빌드된 레이아웃에 추가되면서 이제 레이아웃 모델에서 같은 결과를 생성합니다.

키-값 쌍은 레이블 또는 키 및 이와 관련된 응답 또는 값을 식별하는 문서 내의 특정 범위입니다. 구조화된 양식에서 이러한 쌍은 레이블 및 사용자가 해당 필드에 입력한 값일 수 있습니다. 구조화되지 않은 문서에서는 단락의 텍스트를 기준으로 계약이 실행된 날짜일 수 있습니다. AI 모델은 다양한 문서 유형, 형식 및 구조를 기반으로 식별 가능한 키와 값을 추출하도록 학습되었습니다.

모델이 연결된 값이 없는 키가 존재하는 것을 감지하거나 선택적 필드를 처리할 때는 키가 격리되어 있을 수도 있습니다. 예를 들어 경우에 따라 양식에서 중간 이름 필드를 비워 둘 수 있습니다. 키-값 쌍은 문서에 포함된 텍스트 범위입니다. 동일한 값이 다른 방식으로 설명되는 문서(예: 고객/사용자)가 있는 경우 연관된 키는 컨텍스트에 따라 고객 또는 사용자가 됩니다.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

쿼리 필드

쿼리 필드는 미리 빌드된 모델에서 추출된 스키마를 확장하거나 키 이름이 변수일 때 특정 키 이름을 정의하는 추가 기능입니다. 쿼리 필드를 사용하려면 기능을 queryFields로 설정하고 queryFields 속성에 쉼표로 구분된 필드 이름 목록을 제공합니다.

  • 이제 문서 인텔리전스에서 쿼리 필드 추출을 지원합니다. 쿼리 필드 추출을 사용하면 추가 학습 없이도 쿼리 요청을 사용하여 추출 프로세스에 필드를 추가할 수 있습니다.

  • 미리 빌드된 또는 사용자 지정 모델의 스키마를 확장하거나 레이아웃의 출력으로 몇 가지 필드를 추출해야 하는 경우에 쿼리 필드를 사용합니다.

  • 쿼리 필드는 프리미엄 추가 기능입니다. 최상의 결과를 위해 여러 단어 필드 이름에 카멜 표기법 또는 파스칼 표기법 필드 이름을 사용하여 추출하려는 필드를 정의합니다.

  • 쿼리 필드는 필드를 요청당 최대 20개까지 지원합니다. 문서에 필드 값이 포함되어 있으면 필드와 값이 반환됩니다.

  • 이 릴리스에는 이전 구현보다 가격이 저렴하고 유효성을 검사해야 하는 쿼리 필드 기능이 새롭게 구현되어 있습니다.

참고 항목

Document Intelligence Studio 쿼리 필드 추출은 현재 US tax 모델(W2, 1098대 및 1099대 모델)을 제외한 레이아웃 및 미리 빌드된 모델 2024-02-29-preview2023-10-31-preview API 이상 릴리스에서 사용할 수 있습니다.

쿼리 필드 추출

쿼리 필드 추출을 위해 추출하려는 필드를 지정하면 문서 인텔리전스가 그에 따라 문서를 분석합니다. 예를 들면 다음과 같습니다.

  • Document Intelligence Studio 계약을 처리하는 경우 2024-02-29-preview 또는 2023-10-31-preview 버전을 사용하세요.

    문서 인텔리전스 Studio의 쿼리 필드 버튼 스크린샷.

  • analyze document 요청의 일부로 Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate, TermEndDate와(과) 같은 필드 레이블 목록을 전달할 수 있습니다.

    문서 인텔리전스 Studio의 쿼리 필드 선택 창 스크린샷.

  • 문서 인텔리전스는 필드 데이터를 분석 및 추출하고 구조화된 JSON 출력 값을 반환할 수 있습니다.

  • 쿼리 필드 외에도 응답에는 텍스트, 테이블, 선택 표시 및 기타 관련 데이터가 포함됩니다.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

다음 단계

자세히 알아보기: 모델 읽기레이아웃 모델.

SDK 샘플: python