사용자 지정 분류 모델 빌드 및 학습

이 콘텐츠의 적용 대상은 다음과 같습니다.확인 표시v4.0(미리 보기) | 이전 버전:파란색 확인 표시v3.1(GA)파란색 확인 표시v3.0(GA)

Important

사용자 지정 분류 모델은 현재 공개 미리 보기로 제공됩니다. 기능, 방식 및 프로세스는 GA(일반 공급) 전에 사용자 피드백에 따라 변경될 수 있습니다.

사용자 지정 분류 모델은 입력 파일의 각 페이지를 분류하여 내 문서를 식별할 수 있습니다. 분류자 모델은 입력 파일에서 여러 문서 또는 단일 문서의 여러 인스턴스를 식별할 수도 있습니다. 문서 인텔리전스 사용자 지정 모델을 시작하려면 학습 문서가 최소 5개 필요합니다. 사용자 지정 분류 모델 학습을 시작하려면 각 클래스에 대해 최소 5개의 문서두 개의 문서 클래스가 필요합니다.

사용자 지정 분류 모델 입력 요구 사항

먼저 학습 데이터 집합에서 문서 인텔리전스의 입력 요구 사항을 따르는지 확인합니다.

  • 최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.

  • 지원 파일 형식:

    모델 PDF 이미지:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word(DOCX), Excel(XLSX), PowerPoint(PPTX) 및 HTML
    읽음
    레이아웃 ✔ (2024-02-29-preview, 2023-10-31-preview)
    일반 문서
    사전 제작
    사용자 지정 추출
    사용자 지정 분류 ✔ (2024-02-29-preview)
  • PDF 및 TIFF의 경우 최대 2000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).

  • 문서 분석을 위한 파일 크기는 유료(S0) 계층의 경우 500MB, 무료(F0) 계층의 경우 4MB입니다.

  • 이미지 크기는 50 x 50픽셀에서 10,000 x 10,000픽셀 사이여야 합니다.

  • PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.

  • 추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150DPI(인치당 도트 수)에서 약 8포인트 텍스트에 해당합니다.

  • 사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.

    • 사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB, 신경망 모델의 경우 1G-MB입니다.

    • 사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 최대 10,000페이지인 1GB입니다.

학습 데이터 팁

학습을 위해 데이터 집합을 추가로 최적화하려면 다음 팁을 따르세요.

  • 가능하면 이미지 기반 문서 대신 텍스트 기반 PDF 문서를 사용합니다. 스캔한 PDF는 이미지로 처리됩니다.

  • 양식 이미지의 품질이 낮은 경우 더 큰 데이터 집합(예: 10-15개 이미지)를 사용합니다.

학습 데이터 업로드

학습용으로 양식 또는 문서 집합을 구성한 후에는 Azure Blob Storage 컨테이너에 업로드해야 합니다. 컨테이너를 사용하여 Azure 스토리지 계정을 만드는 방법을 모르는 경우 Azure Portal의 Azure Storage 빠른 시작을 따릅니다. 체험 가격 책정 계층(F0)을 통해 서비스를 사용해 보고, 나중에 프로덕션을 위한 유료 계층으로 업그레이드할 수 있습니다. 데이터 세트가 폴더로 구성된 경우 Studio에서 레이블에 폴더 이름을 사용하여 레이블 지정 프로세스를 간소화할 수 있으므로 해당 구조를 유지합니다.

문서 인텔리전스 스튜디오에서 분류 프로젝트 만들기

문서 인텔리전스 스튜디오는 데이터 세트를 완성하고 모델을 학습하는 데 필요한 모든 API 호출을 제공하고 조정합니다.

  1. 문서 인텔리전스 스튜디오로 이동하여 시작합니다. Studio를 처음 사용하는 경우 구독, 리소스 그룹 및 리소스를 초기화해야 합니다. 그런 다음, 사용자 지정 프로젝트의 필수 구성 요소에 따라 학습 데이터 세트에 액세스하도록 Studio를 구성합니다.

  2. Studio에서 사용자 지정 분류 모델 타일을 선택하고 페이지의 사용자 지정 모델 섹션에서 프로젝트 만들기 단추를 선택합니다.

    문서 인텔리전스 스튜디오에서 분류자 프로젝트를 만드는 방법을 보여 주는 스크린샷.

    1. 프로젝트 만들기 대화 상자에서 프로젝트 이름, 선택적으로 설명을 입력하고 계속을 선택합니다.

    2. 다음 단계에서, 계속을 선택하기 전에 문서 인텔리전스 리소스를 선택하거나 만듭니다.

    프로젝트 설정 대화 상자 창을 보여주는 스크린샷.

  3. 다음으로 사용자 지정 모델 학습 데이터 세트를 업로드할 때 사용한 스토리지 계정을 선택합니다. 학습 문서가 컨테이너의 루트에 있는 경우 폴더 경로는 비어 있어야 합니다. 문서가 하위 폴더에 있는 경우 폴더 경로 필드의 컨테이너 루트에서 상대 경로를 입력합니다. 스토리지 계정이 구성되면 계속을 선택합니다.

    Important

    폴더 이름이 문서의 레이블 또는 클래스인 폴더별로 학습 데이터 세트를 구성하거나 Studio에서 레이블을 할당할 수 있는 문서의 플랫 목록을 만들 수 있습니다.

    문서 인텔리전스 리소스를 선택하는 방법을 보여 주는 스크린샷.

  4. 사용자 지정 분류자를 학습하려면 데이터 세트의 각 문서에 대한 레이아웃 모델의 출력이 필요합니다. 모델 학습 프로세스 전에 모든 문서에서 레이아웃을 실행합니다.

  5. 마지막으로, 프로젝트 설정을 검토하고 프로젝트 만들기를 선택하여 새 프로젝트를 만듭니다. 이제 레이블 지정 창에 있고 나열된 데이터 세트의 파일을 확인해야 합니다.

데이터에 레이블 지정

프로젝트에서는 적절한 클래스 레이블을 사용하여 각 문서에 레이블을 지정하기만 하면 됩니다.

문서 인텔리전스 리소스 선택을 보여 주는 스크린샷.

파일 목록에서 스토리지에 업로드한 파일이 레이블 지정을 위해 준비된 것을 볼 수 있습니다. 데이터 세트에 레이블을 지정하는 몇 가지 옵션이 있습니다.

  1. 문서가 폴더로 구성된 경우 스튜디오에서 폴더 이름을 레이블로 사용하라는 메시지를 표시합니다. 이 단계에서는 레이블을 단일 선택으로 간소화합니다.

  2. 문서에 레이블을 할당하려면 레이블 선택 표시 추가를 선택하여 레이블을 할당합니다.

  3. 레이블을 할당하기 위해 다중 선택 문서에 대한 선택 제어

이제 데이터 세트에 레이블이 지정된 모든 문서가 있습니다. 스토리지 계정을 살펴보면 학습 데이터 세트의 각 문서에 해당하는 .ocr.json 파일과 각 레이블 지정된 클래스에 대한 새 class-name.jsonl 파일을 찾을 수 있습니다. 이 학습 데이터 세트는 모델 학습을 위해 제출됩니다.

모델 학습

레이블이 지정된 데이터 세트를 사용하면 이제 모델을 학습할 준비가 되었습니다. 오른쪽 위 모서리에서 학습 단추를 선택합니다.

  1. 모델 학습 대화 상자에서 고유한 분류자 ID와 설명(선택 사항)을 제공합니다. 분류자 ID는 문자열 데이터 형식을 허용합니다.

  2. 학습을 선택하여 학습 프로세스를 시작합니다.

  3. 분류자 모델은 몇 분 안에 학습됩니다.

  4. 모델 메뉴로 이동하여 학습 작업의 상태를 확인합니다.

모델 테스트

모델 학습이 완료되면 모델 목록 페이지에서 모델을 선택하여 모델을 테스트할 수 있습니다.

  1. 모델을 선택하고 테스트 단추를 선택합니다.

  2. 파일을 검색하거나 문서 선택기에 파일을 삭제하여 새 파일을 추가합니다.

  3. 파일을 선택한 상태에서 분석 단추를 선택하여 모델을 테스트합니다.

  4. 모델 결과는 식별된 문서 목록, 식별된 각 문서에 대한 신뢰도 점수 및 식별된 각 문서의 페이지 범위와 함께 표시됩니다.

  5. 식별된 각 문서에 대한 결과를 평가하여 모델의 유효성을 검사합니다.

SDK 또는 API를 사용하여 사용자 지정 분류자 학습

스튜디오는 사용자 지정 분류자를 학습시키도록 API 호출을 오케스트레이션합니다. 분류자 학습 데이터 세트에는 학습 모델의 API 버전과 일치하는 레이아웃 API의 출력이 필요합니다. 이전 API 버전의 레이아웃 결과를 사용하면 모델의 정확도가 낮아질 수 있습니다.

데이터 세트에 레이아웃 결과가 포함되어 있지 않으면 스튜디오가 학습 데이터 세트의 레이아웃 결과를 생성합니다. API 또는 SDK를 사용하여 분류자를 학습시키는 경우 개별 문서가 포함된 폴더에 레이아웃 결과를 추가해야 합니다. 레이아웃을 직접 호출할 때 레이아웃 결과는 API 응답 형식이어야 합니다. SDK 개체 모델은 다르며, layout resultsSDK response가 아니라 API 결과인지 확인합니다.

문제 해결

분류 모델에는 각 학습 문서에 대한 레이아웃 모델의 결과가 필요합니다. 레이아웃 결과를 제공하지 않으면 스튜디오는 분류자를 학습시키기 전에 각 문서의 레이아웃 모델을 실행하려고 시도합니다. 이 프로세스는 제한되며 429 응답이 발생할 수 있습니다.

Studio에서 분류 모델을 사용하여 학습하기 전에 각 문서에서 레이아웃 모델을 실행하고 원래 문서와 동일한 위치에 업로드합니다. 레이아웃 결과가 추가되면 문서를 사용하여 분류자 모델을 학습시킬 수 있습니다.

다음 단계