사용자 지정 추출 모델 빌드 및 학습

이 콘텐츠의 적용 대상은 다음과 같습니다.확인 표시v4.0(미리 보기) | 이전 버전:파란색 확인 표시v3.1(GA)파란색 확인 표시v3.0(GA)파란색 확인 표시v2.1

문서 인텔리전스 모델을 시작하려면 5개의 학습 문서가 필요합니다. 문서가 5개 이상 있는 경우 사용자 지정 모델 학습을 시작할 수 있습니다. 사용자 지정 템플릿 모델(사용자 지정 양식) 또는 사용자 지정 신경망 모델(사용자 지정 문서)을 학습시킬 수 있습니다. 학습 프로세스는 두 모델 모두에 대해 동일하며 이 문서에서는 두 모델 중 하나를 학습하는 과정을 안내합니다.

사용자 지정 모델 입력 요구 사항

먼저 학습 데이터 세트에서 문서 인텔리전스의 입력 요구 사항을 따르는지 확인합니다.

  • 최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.

  • 지원 파일 형식:

    모델 PDF 이미지:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word(DOCX), Excel(XLSX), PowerPoint(PPTX) 및 HTML
    읽음
    레이아웃 ✔ (2024-02-29-preview, 2023-10-31-preview)
    일반 문서
    사전 제작
    사용자 지정 추출
    사용자 지정 분류 ✔ (2024-02-29-preview)
  • PDF 및 TIFF의 경우 최대 2000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).

  • 문서 분석을 위한 파일 크기는 유료(S0) 계층의 경우 500MB, 무료(F0) 계층의 경우 4MB입니다.

  • 이미지 크기는 50 x 50픽셀에서 10,000 x 10,000픽셀 사이여야 합니다.

  • PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.

  • 추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150DPI(인치당 도트 수)에서 약 8포인트 텍스트에 해당합니다.

  • 사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.

    • 사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB, 신경망 모델의 경우 1G-MB입니다.

    • 사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 최대 10,000페이지인 1GB입니다.

학습 데이터 팁

학습을 위해 데이터 집합을 추가로 최적화하려면 다음 팁을 따르세요.

  • 이미지 기반 문서 대신 텍스트 기반 PDF 문서를 사용합니다. 스캔한 PDF는 이미지로 처리됩니다.
  • 입력 필드가 있는 양식에 대해 모든 필드가 완료된 예제를 사용합니다.
  • 각 필드에 서로 다른 값이 있는 양식을 사용합니다.
  • 양식 이미지의 품질이 낮은 경우 더 큰 데이터 세트(예: 이미지 10~15개)를 사용합니다.

학습 데이터 업로드

학습용으로 양식 또는 문서 집합을 모은 후에는 Azure Blob Storage 컨테이너에 업로드해야 합니다. 컨테이너를 사용하여 Azure 스토리지 계정을 만드는 방법을 모르는 경우 Azure Portal의 Azure Storage 빠른 시작을 따릅니다. 체험 가격 책정 계층(F0)을 통해 서비스를 사용해 보고, 나중에 프로덕션을 위한 유료 계층으로 업그레이드할 수 있습니다.

동영상: 사용자 지정 모델 학습

  • 학습 데이터 세트를 수집하고 업로드하면 사용자 지정 모델을 학습시킬 준비가 된 것입니다. 다음 동영상에서는 프로젝트를 만들고 성공적인 모델 레이블 지정 및 학습을 위한 몇 가지 기본 사항을 살펴보겠습니다.

문서 인텔리전스 스튜디오에서 프로젝트 만들기

문서 인텔리전스 스튜디오는 데이터 세트를 완성하고 모델을 학습하는 데 필요한 모든 API 호출을 제공하고 조정합니다.

  1. 문서 인텔리전스 스튜디오로 이동하여 시작합니다. Studio를 처음 사용하는 경우 구독, 리소스 그룹 및 리소스를 초기화해야 합니다. 그런 다음, 사용자 지정 프로젝트의 필수 구성 요소에 따라 학습 데이터 세트에 액세스하도록 Studio를 구성합니다.

  2. Studio에서 사용자 지정 모델 타일을 선택하고 사용자 지정 모델 페이지에서 프로젝트 만들기 단추를 선택합니다.

    문서 인텔리전스 스튜디오에서 프로젝트 만들기 스크린샷

    1. 프로젝트 만들기 대화 상자에서 프로젝트 이름, 선택적으로 설명을 입력하고 계속을 선택합니다.

    2. 워크플로의 다음 단계에서 계속을 선택하기 전에 문서 인텔리전스 리소스를 선택하거나 만듭니다.

    Important

    사용자 지정 신경망 모델은 일부 지역에서만 사용할 수 있습니다. 신경망 모델을 학습하려는 경우 지원되는 지역 중 하나에서 리소스를 선택하거나 만듭니다.

    문서 인텔리전스 리소스 선택하기 스크린샷

  3. 다음으로 사용자 지정 모델 학습 데이터 세트를 업로드할 때 사용한 스토리지 계정을 선택합니다. 학습 문서가 컨테이너의 루트에 있는 경우 폴더 경로는 비어 있어야 합니다. 문서가 하위 폴더에 있는 경우 폴더 경로 필드의 컨테이너 루트에서 상대 경로를 입력합니다. 스토리지 계정이 구성되면 계속을 선택합니다.

    스토리지 계정 선택하기 스크린샷

  4. 마지막으로, 프로젝트 설정을 검토하고 프로젝트 만들기를 선택하여 새 프로젝트를 만듭니다. 이제 레이블 지정 창에 있고 나열된 데이터 세트의 파일을 확인해야 합니다.

데이터에 레이블 지정

프로젝트에서 첫 번째 작업은 추출하려는 필드로 데이터 세트에 레이블을 지정하는 것입니다.

스토리지에 업로드한 파일이 첫 번째 파일에 레이블을 지정할 준비가 된 상태로 화면 왼쪽에 표시됩니다.

  1. 화면 오른쪽 위에 있는 더하기(➕) 단추를 선택하여 데이터 세트에 레이블을 지정하고 첫 번째 필드를 만들기 시작합니다.

    레이블 만들기 스크린샷

  2. 필드의 이름을 입력합니다.

  3. 문서에서 한 단어 또는 여러 단어를 선택하여 필드에 값을 할당합니다. 드롭다운 또는 오른쪽 탐색 모음의 필드 목록에서 필드를 선택합니다. 레이블이 지정된 값은 필드 목록의 필드 이름 아래에 표시됩니다.

  4. 데이터 세트에 레이블을 지정하려는 모든 필드에 대해 프로세스를 반복합니다.

  5. 각 문서를 선택하고 레이블을 지정할 텍스트를 선택하여 데이터 세트의 나머지 문서에 레이블을 지정합니다.

이제 데이터 세트에 레이블이 지정된 모든 문서가 있습니다. 학습 데이터 세트의 각 문서에 해당하는 .labels.json.ocr.json 파일과 새 fields.json 파일입니다. 이 학습 데이터 세트는 모델 학습을 위해 제출됩니다.

모델 학습

레이블이 지정된 데이터 세트를 사용하면 이제 모델을 학습할 준비가 되었습니다. 오른쪽 위 모서리에서 학습 단추를 선택합니다.

  1. 모델 학습 대화 상자에서 고유한 모델 ID와 설명(선택 사항)을 제공합니다. 모델 ID는 문자열 데이터 형식을 허용합니다.

  2. 빌드 모드의 경우 학습할 모델 유형을 선택합니다. 모델 형식 및 기능에 대해 자세히 알아봅니다.

    모델 학습 대화 상자의 스크린샷.

  3. 학습을 선택하여 학습 프로세스를 시작합니다.

  4. 템플릿 모델은 몇 분 안에 학습됩니다. 신경망 모델은 학습하는 데 최대 30분이 걸릴 수 있습니다.

  5. 모델 메뉴로 이동하여 학습 작업의 상태를 확인합니다.

모델 테스트

모델 학습이 완료되면 모델 목록 페이지에서 모델을 선택하여 모델을 테스트할 수 있습니다.

  1. 모델을 선택하고 테스트 단추를 선택합니다.

  2. + Add 단추를 선택하여 모델을 테스트할 파일을 선택합니다.

  3. 파일을 선택한 상태에서 분석 단추를 선택하여 모델을 테스트합니다.

  4. 모델 결과가 주 창에 표시되고 추출된 필드가 오른쪽 탐색 모음에 나열됩니다.

  5. 각 필드에 대한 결과를 평가하여 모델의 유효성을 검사합니다.

  6. 오른쪽 탐색 모음에는 모델을 호출하는 샘플 코드와 API의 JSON 결과도 있습니다.

축하합니다! 문서 인텔리전스 스튜디오에서 사용자 지정 모델을 학습시키는 방법을 알아보았습니다. 모델은 REST API 또는 SDK와 함께 문서를 분석하는 데 사용할 준비가 된 것입니다.

적용 대상:문서 인텔리전스 v2.1 체크 표시v2.1. 다른 버전:v3.0

문서 인텔리전스 사용자 지정 모델을 사용하는 경우 해당 모델에서 산업별 양식을 학습할 수 있도록 사용자 고유의 학습 데이터를 사용자 지정 모델 학습 작업에 제공합니다. 이 가이드에 따라 모델을 효과적으로 학습시키기 위해 데이터를 수집하고 준비하는 방법에 대해 알아봅니다.

동일한 형식의 완성된 양식이 5개 이상 필요합니다.

수동으로 레이블이 지정된 학습 데이터를 사용하려면 동일한 형식의 완성된 5개 이상의 양식으로 시작해야 합니다. 필요한 데이터 세트 외에도 레이블이 없는 양식도 계속 사용할 수 있습니다.

사용자 지정 모델 입력 요구 사항

먼저 학습 데이터 세트에서 문서 인텔리전스의 입력 요구 사항을 따르는지 확인합니다.

  • 최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.

  • 지원 파일 형식:

    모델 PDF 이미지:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word(DOCX), Excel(XLSX), PowerPoint(PPTX) 및 HTML
    읽음
    레이아웃 ✔ (2024-02-29-preview, 2023-10-31-preview)
    일반 문서
    사전 제작
    사용자 지정 추출
    사용자 지정 분류 ✔ (2024-02-29-preview)
  • PDF 및 TIFF의 경우 최대 2000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).

  • 문서 분석을 위한 파일 크기는 유료(S0) 계층의 경우 500MB, 무료(F0) 계층의 경우 4MB입니다.

  • 이미지 크기는 50 x 50픽셀에서 10,000 x 10,000픽셀 사이여야 합니다.

  • PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.

  • 추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150DPI(인치당 도트 수)에서 약 8포인트 텍스트에 해당합니다.

  • 사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.

    • 사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB, 신경망 모델의 경우 1G-MB입니다.

    • 사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 최대 10,000페이지인 1GB입니다.

학습 데이터 팁

학습을 위해 데이터 세트를 추가로 최적화하려면 다음 팁을 따르세요.

  • 이미지 기반 문서 대신 텍스트 기반 PDF 문서를 사용합니다. 스캔한 PDF는 이미지로 처리됩니다.
  • 완료된 양식에 대해 필드가 모두 채워진 예제를 사용합니다.
  • 각 필드에 서로 다른 값이 있는 양식을 사용합니다.
  • 완성된 양식에 더 큰 데이터 세트(이미지 10-15개)를 사용합니다.

학습 데이터 업로드

학습용으로 문서 집합을 모은 후에는 Azure Blob Storage 컨테이너에 업로드해야 합니다. 컨테이너를 사용하여 Azure 스토리지 계정을 만드는 방법을 모르는 경우 Azure Portal의 Azure Storage 빠른 시작을 따릅니다. 표준 성능 계층을 사용합니다.

수동으로 레이블이 지정된 데이터를 사용하려면 학습 문서에 해당하는 .labels.json.ocr.json 파일을 업로드합니다. 샘플 레이블 지정 도구(또는 사용자 고유의 UI)를 사용하여 이러한 파일을 생성할 수 있습니다.

하위 폴더에 데이터 구성(선택 사항)

기본적으로 사용자 지정 모델 학습 API는 스토리지 컨테이너의 루트에 있는 문서만 사용합니다. 그러나 API 호출에서 데이터를 지정하는 경우 하위 폴더의 데이터를 사용하여 학습시킬 수 있습니다. 일반적으로 사용자 지정 모델 학습 호출 본문의 형식은 다음과 같습니다. 여기서 <SAS URL>은 컨테이너의 공유 액세스 서명 URL입니다.

{
  "source":"<SAS URL>"
}

다음 콘텐츠를 요청 본문에 추가하면 API에서 하위 폴더에 있는 문서를 사용하여 학습시킵니다. "prefix" 필드는 선택 사항이며, 학습 데이터 세트를 지정된 문자열로 시작하는 경로의 파일로 제한합니다. 예를 들어 "Test" 값은 API에서 Test라는 단어로 시작하는 파일 또는 폴더만 확인하도록 합니다.

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

다음 단계

이제 학습 데이터 세트를 빌드하는 방법을 알아보았으므로 빠른 시작에 따라 사용자 지정 문서 인텔리전스 모델을 학습시키고 양식에서 사용하기 시작합니다.

참고 항목