모델 형식을 선택합니다.

완료됨

Azure AI 문서 인텔리전스는 모델을 사용하여 예상되는 문서 및 양식을 설명합니다. 일반적인 유형의 문서가 있는 경우 미리 빌드된 모델 중 하나를 사용하거나 고유한 모델을 만들어서 학습시킬 수 있습니다.

여론조사 회사에 근무하며 다양한 클라이언트에 대한 설문 조사에 다양한 형식을 사용하고 있습니다. “응답자 이름” 및 “연락처 전화”와 같은 몇 가지 공통 필드가 있지만 다른 필드는 각 클라이언트 회사 또는 당사자마다 고유합니다. 문서 인텔리전스 솔루션에서 사용할 모델을 선택하고 만드는 방법을 계획하려고 합니다.

이 단원에서는 Azure AI 문서 인텔리전스에서 사용할 수 있는 미리 빌드된 모델, 그리고 사용자 지정 및 구성형 모델을 만드는 경우에 대해 알아봅니다.

미리 빌드된 모델

청구서 및 영수증과 같은 문서 유형은 비즈니스 및 산업마다 다르지만 구조와 키-값 쌍이 유사합니다. 예를 들어 “총 비용” 값은 “총계” “합계” 또는 다른 이름으로 부를 수도 있지만 거의 모든 청구서에 표시됩니다. Microsoft는 가장 일반적인 유형의 문서를 처리하기 위해 Azure AI 문서 인텔리전스로 미리 빌드된 모델 집합을 제공해왔습니다. 이러한 모델을 학습시킬 필요가 없으며 매우 빠르게 사용하여 솔루션을 만들 수 있습니다.

일반 문서 분석 모델

미리 빌드된 세 가지 모델은 일반 문서를 처리하고 단어, 선, 구조 및 기타 정보(예: 문서가 작성된 언어)를 추출하도록 설계되었습니다.

  • 읽기 이 모델을 사용하여 인쇄된 문서와 손으로 쓴 문서에서 단어와 선을 추출할 수 있습니다. 또한 문서에서 사용되는 언어도 검색합니다.

    Azure AI Document Intelligence Studio에서 독일어로 문서를 분석하는 읽기 모델을 보여 주는 스크린샷입니다.

  • 일반 문서. 이 모델을 사용하여 문서의 테이블에서 키-값 쌍을 추출합니다.

    Azure AI Document Intelligence Studio에서 문서를 분석하는 일반적인 문서 모델을 보여 주는 스크린샷입니다.

  • 레이아웃. 이 모델을 사용하여 양식에서 텍스트, 테이블 및 구조체 정보를 추출합니다. 확인란 및 라디오 단추와 같은 선택 표시를 인식할 수도 있습니다.

    Azure AI Document Intelligence Studio에서 문서를 분석하는 레이아웃 모델을 보여 주는 스크린샷입니다.

참고 항목

위의 모델 스크린샷에서는 Azure AI 문서 인텔리전스 스튜디오에서 데이터를 추출하는 문서 인텔리전스 모델을 보여 줍니다.

특정 문서 유형 모델

미리 빌드된 다른 모델은 각각 특정하고 일반적으로 사용되는 문서 유형을 처리하고 이를 학습하도록 설계되었습니다. 예는 다음과 같습니다.

  • 청구서. 이 모델을 사용하여 영어 및 스페인어로 판매 청구서에서 주요 정보를 추출할 수 있습니다.

    Azure AI Document Intelligence Studio에서 문서를 분석하는 청구서 모델을 보여 주는 스크린샷입니다.

  • 수신 확인. 이 모델을 사용하여 인쇄 및 필기 영수증에서 데이터를 추출합니다.

    Azure AI Document Intelligence Studio에서 문서를 분석하는 영수증 모델을 보여 주는 스크린샷입니다.

  • W-2. 이 모델을 사용하여 미국 정부의 W-2 세금 선언 양식에서 데이터를 추출합니다.

    Azure AI Document Intelligence Studio에서 문서를 분석하는 W-2 모델을 보여 주는 스크린샷입니다.

  • ID 문서. 이 모델을 사용하여 미국 운전 면허증 및 국제 여권에서 데이터를 추출합니다.

  • 명함. 이 모델을 사용하여 명함에서 이름 및 연락처 세부 정보를 추출합니다.

    Azure AI Document Intelligence Studio에서 문서를 분석하는 명함 모델을 보여 주는 스크린샷입니다.

사용자 지정 모델

미리 빌드된 모델이 목적에 맞지 않는 경우 사용자 지정 모델을 만들고 학습시켜 사용자가 Azure AI 문서 인텔리전스 서비스로 보낼 특정 유형의 문서를 분석할 수 있습니다. 일반 문서 분석기의 미리 빌드된 모델은 이러한 양식에서 풍부한 정보를 추출할 수 있으며, 요구 사항이 일반 데이터를 가져오는 것일 경우 이를 사용할 수 있습니다. 그러나 유사한 구조 및 키-값 쌍이 있는 양식에 대해 학습시킨 사용자 지정 모델을 사용하면 일반적이지 않은 양식 형식에서 보다 예측 가능하고 표준화된 결과를 얻을 수 있습니다.

사용자 지정 모델을 학습시키려면 완성된 양식의 예제를 5개 이상 제공해야 하지만 제공하는 예제가 많아질수록 Azure AI 문서 인텔리전스가 입력을 분석할 때 반환되는 신뢰 수준이 높아질 것입니다. 문서가 구조 및 용어 측면에서 더 다양할수록 신뢰할 수 있는 모델을 학습시키기 위해 제공해야 하는 예제 문서의 수가 늘어나게 됩니다. 레이블이 지정된 데이터 세트를 제공하여 예상 데이터를 설명하거나 모델이 예제 양식에서 찾은 내용에 따라 키-값 쌍 및 테이블 데이터를 식별하도록 허용할 수 있습니다. 또한 학습 양식에는 가능한 입력의 전체 범위에 걸쳐 있는 예제가 포함되도록 해야 합니다. 예를 들어 손으로 쓴 항목과 인쇄된 항목이 모두 필요한 경우 학습에 둘 다 포함시켜야 합니다.

이러한 방식으로 사용자 지정 모델을 학습시킨 후에는 Azure AI 문서 인텔리전스가 고유한 양식의 정보를 정확하고 예측 가능하게 식별할 수 있습니다.

Azure AI Document Intelligence Studio의 비즈니스별 예제 양식에서 사용자 지정 모델을 학습하는 방법을 보여 주는 스크린샷입니다.

두 종류의 사용자 지정 모델이 있습니다.

  • 사용자 지정 템플릿 모델. 분석하려는 양식에 일관된 시각적 템플릿이 있는 경우 사용자 지정 템플릿 모델이 가장 적합합니다. 양식에서 사용자가 입력한 데이터를 모두 제거하면 빈 양식들이 동일한 경우 사용자 지정 템플릿 모델을 사용합니다. 사용자 지정 템플릿 모델은 필기 텍스트에 대해 9가지 언어를 지원하고 인쇄된 텍스트에 대해서는 다양한 언어를 지원합니다. 양식 템플릿의 변형이 몇 가지 있는 경우 각 변형에 대한 모델을 학습한 다음 모델을 단일 모델로 함께 작성합니다. 서비스는 문서를 분석하는 데 가장 적합한 모델을 호출합니다.
  • 사용자 지정 인공신경망 모델. 사용자 지정 신경망 모델은 구조화된 문서와 구조화되지 않은 문서의 스펙트럼에서 작동할 수 있습니다. 정의된 구조 또는 고도로 구조화된 양식이 없는 계약과 같은 문서는 신경 모델을 사용하여 분석할 수 있습니다. 신경망 모델은 영어의 경우 정확도가 가장 높고 독일어, 프랑스어, 이탈리아어, 스페인어 및 네덜란드어와 같은 다른 언어에서는 정확도가 약간 떨어집니다. 모델이 시나리오를 해결하는 경우 먼저 사용자 지정 신경망 모델을 사용해 보세요.

구성된 모델

구성형 모델은 여러 사용자 지정 모델로 구성된 모델입니다. 작성된 모델이 도움이 되는 일반적인 시나리오는 제출된 문서 형식을 모르는 상태에서 분류한 다음 분석하려는 경우입니다. 이러한 시나리오는 양식의 변형이 다양하고 각각의 변형에 학습된 개별 모델이 있는 경우에도 유용합니다. 사용자가 구성된 모델에 양식을 제출하면 문서 인텔리전스는 이를 자동으로 분류하여 분석에 사용해야 할 사용자 지정 모델을 결정합니다. 이 방법에서는 제출 전에 사용자가 문서의 종류를 알 필요가 없습니다. 유사한 양식을 많이 사용하거나 모든 양식 유형에 대해 단일 엔드포인트를 게시하려는 경우에 유용할 수 있습니다.

중요

구성형 모델의 결과에는 각 양식을 분석하기 위해 선택한 사용자 지정 모델을 나타내는 docType 속성이 포함됩니다.

표준 가격 책정 계층을 사용하는 경우 단일 구성형 모델에 최대 100개의 사용자 지정 모델을 추가할 수 있습니다. 무료 가격 책정 계층을 사용하는 경우 최대 5개의 사용자 지정 모델만 추가할 수 있습니다.

자세한 정보