사용자 지정 모델 작성
강조 스타일이 콘텐츠의 적용 대상: v3.1(GA) | 최신 버전: v4.0(미리 보기) | 이전 버전: v3.0 v2.1
이 콘텐츠의 적용 대상: v3.0(GA) | 최신 버전: v4.0(미리 보기) v3.1 | 이전 버전: v2.1
이 콘텐츠의 적용 대상: v2.1 | 최신 버전: v4.0(미리 보기)
Important
모델 작성 동작은 api-version=2024-07-31-preview 이상에서 변경됩니다. 자세한 내용은 구성된 사용자 지정 모델을 참조하세요. 다음 동작은 v3.1 및 이전 버전에만 적용됩니다.
구성된 모델은 사용자 지정 모델 컬렉션을 가져와 단일 모델 ID에 할당하여 만듭니다. 구성된 단일 모델 ID에 최대 200개의 학습된 사용자 지정 모델을 할당할 수 있습니다. 구성형 모델에 문서가 제출되면 이 서비스에서는 분류 단계를 수행하여 분석용으로 제공된 양식을 정확히 나타내는 사용자 지정 모델을 결정합니다. 구성된 모델은 여러 모델을 학습시키고 비슷한 양식 유형을 분석하도록 그룹화하려는 경우에 유용합니다. 예를 들어 구성형 모델은 물자, 장비 및 가구 구매 주문을 분석하도록 학습된 사용자 지정 모델을 포함할 수 있습니다. 적절한 모델을 수동으로 선택하는 대신, 구성형 모델을 사용하여 각 분석 및 추출에 적합한 사용자 지정 모델을 결정할 수 있습니다.
자세한 내용은 구성된 사용자 지정 모델을 참조하세요.
이 문서에서는 작성된 사용자 지정 모델을 만들고 사용하여 양식과 문서를 분석하는 방법을 알아봅니다.
필수 조건
시작하기 전에 다음 리소스가 필요합니다.
Azure 구독. 체험 Azure 구독을 만들 수 있습니다.
문서 인텔리전스 인스턴스. Azure를 구독하고 나면 Azure portal에서 문서 인텔리전스 리소스를 생성하여 키와 엔드포인트를 가져옵니다. 기존 문서 인텔리전스 리소스가 있는 경우 리소스 페이지로 직접 이동하세요. 체험 가격 책정 계층(F0)을 통해 서비스를 사용해 보고, 나중에 프로덕션을 위한 유료 계층으로 업그레이드할 수 있습니다.
리소스가 배포된 후 리소스로 이동을 선택합니다.
Azure Portal에서 키 및 엔드포인트 값을 복사하여 Microsoft 메모장 같은 편리한 위치에 붙여넣습니다. 애플리케이션을 문서 인텔리전스 API에 연결하려면 키와 엔드포인트 값이 필요합니다.
팁
자세한 내용은 문서 인텔리전스 리소스 만들기를 참조하세요.
- Azure 스토리지 계정. Azure 스토리지 계정을 만드는 방법을 모르는 경우 Azure Portal의 Azure Storage 빠른 시작을 따르세요. 체험 가격 책정 계층(F0)을 통해 서비스를 사용해 보고, 나중에 프로덕션을 위한 유료 계층으로 업그레이드할 수 있습니다.
사용자 지정 모델 만들기
먼저 구성할 사용자 지정 모델 세트가 필요합니다. 문서 인텔리전스 스튜디오, REST API 또는 클라이언트-라이브러리 SDK를 사용할 수 있습니다. 절차는 다음과 같습니다.
학습 데이터 세트 조합
사용자 지정 모델 빌드는 학습 데이터 세트를 설정하는 것으로 시작합니다. 샘플 데이터 세트에 대해 동일한 유형으로 완성된 5개 이상의 양식이 필요합니다. 파일 형식이 다를 수 있으며(jpg, png, pdf, tiff) 텍스트와 필기를 모두 포함할 수 있습니다. 양식은 문서 인텔리전스의 입력 요구 사항을 따라야 합니다.
팁
학습을 위해 데이터 세트를 최적화하려면 다음 팁을 따릅니다.
- 가능하면 이미지 기반 문서 대신 텍스트 기반 PDF 문서를 사용합니다. 스캔한 PDF는 이미지로 처리됩니다.
- 채워진 양식의 경우 모든 필드가 채워진 예제를 사용합니다.
- 각 필드에 서로 다른 값이 있는 양식을 사용합니다.
- 양식 이미지의 품질이 낮은 경우 더 큰 데이터 집합(예: 10-15개 이미지)를 사용합니다.
학습 문서를 수집하는 방법에 대한 팁은 학습 데이터 세트 빌드를 참조하세요.
학습 데이터 세트 업로드
학습 문서 집합을 수집한 경우 Azure Blob Storage 컨테이너에 학습 데이터를 업로드해야 합니다.
수동으로 레이블이 지정된 데이터를 사용하려면 학습 문서에 해당하는 .labels.json 및 .ocr.json 파일도 업로드해야 합니다.
사용자 지정 모델 학습
레이블이 지정된 데이터로 모델을 학습시키는 경우 모델은 감독 학습을 통해 사용자가 제공하는 레이블 지정 양식을 사용하여 관심 있는 값을 추출합니다. 레이블이 지정된 데이터는 모델 성능이 향상되며, 복잡한 양식 또는 키 없는 값을 포함하는 양식과 함께 작동하는 모델을 생성할 수 있습니다.
문서 인텔리전스는 미리 빌드된 레이아웃 모델 API를 사용하여 서체 및 필기된 텍스트 요소의 예상 크기와 위치를 학습하고 테이블을 추출합니다. 그런 다음, 사용자 지정 레이블을 사용하여 문서의 키/값 연결 및 테이블을 학습합니다. 새 모델을 학습시킬 때 동일한 유형(동일한 구조)의 수동 레이블 지정 양식 5개를 사용하여 시작하는 것이 좋습니다. 그런 다음, 필요에 따라 레이블이 지정된 데이터를 더 추가하여 모델 정확도를 향상시킵니다. 문서 인텔리전스를 통해 감독 학습 기능을 사용하여 키 값 쌍과 테이블을 추출하도록 모델을 학습할 수 있습니다.
사용자 지정 모델을 만들려면 프로젝트 구성부터 시작합니다.
Studio 홈페이지의 사용자 지정 모델 카드에서 새로 만들기를 선택합니다.
➕ 프로젝트 만들기 명령을 사용하여 새 프로젝트 구성 마법사를 시작합니다.
프로젝트 세부 정보를 입력하고, Azure 구독 및 리소스, 데이터가 포함된 Azure Blob 스토리지 컨테이너를 선택합니다.
설정을 검토하고 제출하고 프로젝트를 만듭니다.
사용자 지정 모델을 만드는 동안 문서에서 데이터 컬렉션을 추출해야 할 수 있습니다. 컬렉션은 두 가지 형식 중 하나로 나타날 수 있습니다. 테이블을 시각적 패턴으로 사용:
지정된 필드(열) 세트에 대한 동적 또는 변수 값(행)의 개수
지정된 필드(열 및/또는 행) 세트에 대한 특정 값(행)의 컬렉션
문서 인텔리전스 스튜디오: 테이블로 레이블 지정을 참조하세요.
구성형 모델 만들기
참고 항목
create compose model
작업은 레이블을 사용하여 학습된 사용자 지정 모델에만 사용할 수 있습니다. 레이블이 없는 모델을 작성하려고 하면 오류가 발생합니다.
작성 모델 만들기 작업을 사용하면 최대 100개의 학습된 모델을 단일 모델 ID에 할당할 수 있습니다. 작성된 모델 ID를 사용하여 문서를 분석하면 문서 인텔리전스는 먼저 사용자가 제출한 양식을 분류하고, 할당된 모델 중 가장 정확하게 일치하는 모델을 선택하고, 해당 모델에 대한 결과를 반환합니다. 이 작업은 들어오는 양식이 여러 템플릿 중 하나에 속할 수 있을 때 유용합니다.
학습 프로세스가 성공적으로 완료되면 구성형 모델 빌드를 시작할 수 있습니다. 작성된 모델을 만들고 사용하는 단계는 다음과 같습니다.
모델 ID 수집
문서 인텔리전스 스튜디오를 사용하여 모델을 학습시키는 경우 모델 ID는 프로젝트 아래의 모델 메뉴에 있습니다.
사용자 지정 모델 작성
사용자 지정 모델 프로젝트를 선택합니다.
프로젝트에서
Models
메뉴 항목을 선택합니다.결과 모델 목록에서 작성하려는 모델을 선택합니다.
왼쪽 위 모서리에서 작성 단추를 선택합니다.
팝업 창에서 새로 작성된 모델의 이름을 지정하고 작성을 선택합니다.
작업이 완료되면 새로 작성된 모델이 목록에 표시됩니다.
모델이 준비되면 테스트 명령을 사용하여 테스트 문서를 통해 모델의 유효성을 검사하고 결과를 관찰합니다.
문서 분석
사용자 지정 모델 분석 작업을 수행하려면 문서 인텔리전스에 대한 호출에서 modelID
를 제공해야 합니다. 애플리케이션에서 modelID
매개 변수에 대해 작성된 모델 ID를 제공해야 합니다.
작성된 모델 관리
수명 주기 동안 사용자 지정 모델을 관리할 수 있습니다.
- 새 문서를 테스트하고 유효성을 검사합니다.
- 애플리케이션에서 사용할 모델을 다운로드합니다.
- 수명 주기가 완료되면 모델을 삭제합니다.
좋습니다! 사용자 지정 모델 및 구성형 모델을 만들어 문서 인텔리전스 프로젝트와 애플리케이션에 사용하는 단계를 배웠습니다.
다음 단계
문서 인텔리전스 빠른 시작 중 하나를 사용해 보세요.
문서 인텔리전스는 고급 기계 학습 기술을 사용하여 문서 이미지에서 정보를 탐지하여 추출하고, 추출된 데이터를 정형 JSON 출력으로 반환합니다. 문서 인텔리전스를 사용하여 독립 실행형 사용자 지정 모델을 학습시키거나 사용자 지정 모델을 결합하여 구성형 모델을 만들 수 있습니다.
사용자 지정 모델. 문서 인텔리전스 사용자 지정 모델을 사용하면 비즈니스와 관련된 양식 및 문서의 데이터를 분석하고 추출할 수 있습니다. 사용자 지정 모델은 고객의 고유한 데이터 및 사용 사례를 학습합니다.
구성형 모델. 구성형 모델은 사용자 지정 모델 컬렉션을 가져와서 사용자의 양식 유형을 포함하는 단일 모델에 할당하여 만듭니다. 구성형 모델에 문서가 제출되면 이 서비스에서는 분류 단계를 수행하여 분석용으로 제공된 양식을 정확히 나타내는 사용자 지정 모델을 결정합니다.
이 문서에서는 문서 인텔리전스 샘플 레이블 지정 도구, REST API, 클라이언트-라이브러리를 사용하여 문서 인텔리전스 사용자 지정 및 구성형 모델을 만드는 방법을 알아봅니다.
샘플 레이블 지정 도구
샘플 레이블 지정 도구를 사용하여 사용자 지정 양식에서 데이터를 추출해 보세요. 다음 리소스가 필요합니다.
Azure 구독 – 체험 구독 만들기
Azure Portal의 Document Intelligence 인스턴스입니다. 무료 가격 책정 계층(
F0
)을 사용하여 서비스를 시도할 수 있습니다. 리소스가 배포된 후 리소스로 이동을 선택하여 키 및 엔드포인트를 가져옵니다.
문서 인텔리전스 UI에서:
- 사용자 지정을 사용하여 레이블이 있는 모델 학습 및 키 값 쌍 가져오기를 선택합니다.
- 다음 창에서 새 프로젝트를 선택합니다.
모델 만들기
사용자 지정 모델 및 구성형 모델을 작성, 학습 및 사용하는 단계는 다음과 같습니다.
학습 데이터 세트 조합
사용자 지정 모델 빌드는 학습 데이터 세트를 설정하는 것으로 시작합니다. 샘플 데이터 세트에 대해 동일한 유형으로 완성된 5개 이상의 양식이 필요합니다. 파일 형식이 다를 수 있으며(jpg, png, pdf, tiff) 텍스트와 필기를 모두 포함할 수 있습니다. 양식은 문서 인텔리전스의 입력 요구 사항을 따라야 합니다.
학습 데이터 세트 업로드
학습 데이터를 Azure Blob 스토리지 컨테이너에 업로드해야 합니다. 컨테이너를 사용하여 Azure 스토리지 계정을 만드는 방법을 모르는 경우 Azure Portal의 Azure Storage 빠른 시작을 참조하세요. 체험 가격 책정 계층(F0)을 통해 서비스를 사용해 보고, 나중에 프로덕션을 위한 유료 계층으로 업그레이드할 수 있습니다.
사용자 지정 모델 학습
레이블이 지정된 데이터 세트를 사용하여 모델을 학습합니다. 레이블이 지정된 데이터 세트는 미리 빌드된 레이아웃 API를 사용하지만 사용자의 특정 레이블 및 필드 위치와 같은 추가 사용자 입력이 포함됩니다. 레이블이 지정된 학습 데이터에 대해 5개 이상의 완료된 양식의 동일한 형식으로 시작합니다.
레이블이 지정된 데이터로 학습하는 경우 모델은 감독 학습을 통해 사용자가 제공하는 레이블 지정 양식을 사용하여 관심 있는 값을 추출합니다. 레이블이 지정된 데이터는 모델 성능이 향상되며, 복잡한 양식 또는 키 없는 값을 포함하는 양식과 함께 작동하는 모델을 생성할 수 있습니다.
문서 인텔리전스는 레이아웃 API를 사용하여 서체 및 필기된 텍스트 요소의 예상 크기와 위치를 학습하고 테이블을 추출합니다. 그런 다음, 사용자 지정 레이블을 사용하여 문서의 키/값 연결 및 테이블을 학습합니다. 새 모델을 학습시킬 때 동일한 유형(동일한 구조)의 수동 레이블 지정 양식 5개를 사용하여 시작하는 것이 좋습니다. 필요에 따라 레이블이 지정된 데이터를 더 추가하여 모델 정확도를 향상시킵니다. 문서 인텔리전스를 통해 감독 학습 기능을 사용하여 키 값 쌍과 테이블을 추출하도록 모델을 학습할 수 있습니다.
[!VIDEO https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]
구성형 모델 만들기
참고 항목
모델 만들기는 레이블을 사용하여 학습된 사용자 지정 모델에만 사용할 수 있습니다. 레이블이 없는 모델을 작성하려고 하면 오류가 발생합니다.
모델 작성 작업을 사용하면 최대 200개의 학습된 모델을 단일 모델 ID에 할당할 수 있습니다. 구성형 모델 ID를 사용하여 분석을 호출하면 문서 인텔리전스는 먼저 사용자가 제출한 양식을 분류하고, 할당된 모델 중 가장 정확하게 일치하는 모델을 선택하고, 해당 모델에 대한 결과를 반환합니다. 이 작업은 들어오는 양식이 여러 템플릿 중 하나에 속할 수 있을 때 유용합니다.
문서 인텔리전스 샘플 레이블 지정 도구, REST API, 클라이언트-라이브러리를 사용하는 경우 다음 단계에 따라 구성형 모델을 설정합니다.
사용자 지정 모델 ID 수집
학습 프로세스가 성공적으로 완료되면 사용자 지정 모델에 모델 ID가 할당됩니다. 다음과 같이 모델 ID를 검색할 수 있습니다.
문서 인텔리전스 샘플 레이블 지정 도구를 사용하여 모델을 학습시키는 경우 모델 ID는 학습 결과 창에 있습니다.
사용자 지정 모델 작성
단일 양식 유형에 해당하는 사용자 지정 모델을 수집한 후에는 사용자 지정 모델을 단일 모델로 구성할 수 있습니다.
샘플 레이블 지정 도구를 사용하면 신속하게 모델 학습을 시작하여 단일 모델 ID로 작성할 수 있습니다.
학습이 완료되면 다음과 같이 모델을 구성합니다.
왼쪽 레일 메뉴에서 모델 작성 아이콘(병합 화살표)을 선택합니다.
주 창에서 단일 모델 ID에 할당하려는 모델을 선택합니다. 화살표 아이콘이 있는 모델은 이미 작성된 모델입니다.
왼쪽 위 모서리에서 작성 단추를 선택합니다.
팝업 창에서 새로 작성된 모델의 이름을 지정하고 작성을 선택합니다.
작업이 완료되면 새로 작성된 모델이 목록에 표시됩니다.
사용자 지정 모델 또는 구성형 모델로 문서 분석
사용자 지정 양식 분석 작업을 수행하려면 문서 인텔리전스에 대한 호출에서 modelID
를 제공해야 합니다. modelID
매개 변수에 대한 단일 사용자 지정 모델 ID 또는 구성형 모델 ID를 제공하면 됩니다.
도구 왼쪽 창 메뉴에서
Analyze
아이콘(전구)을 선택합니다.분석할 로컬 파일 또는 이미지 URL을 선택합니다.
분석 실행 단추를 선택합니다.
이 도구는 경계 상자에 태그를 적용하고 각 태그의 신뢰도를 보고합니다.
학습 데이터 세트에 포함되지 않은 분석 양식을 사용하여 새로 학습된 모델을 테스트합니다. 보고된 정확도에 따라 모델을 향상시키기 위해 추가 학습을 수행하는 것이 좋습니다. 추가 학습을 계속 진행하여 결과를 개선할 수 있습니다.
사용자 지정 모델 관리
사용자 지정 모델의 수명 주기 내에는 언제든지 구독 중인 모든 사용자 지정 모델의 목록을 보거나, 특정 사용자 지정 모델에 대한 정보를 검색하거나, 계정에서 사용자 지정 모델을 삭제하여 사용자 지정 모델을 관리할 수 있습니다.
좋습니다! 사용자 지정 모델 및 구성형 모델을 만들어 문서 인텔리전스 프로젝트와 애플리케이션에 사용하는 단계를 배웠습니다.
다음 단계
API 참조 문서를 탐색하여 문서 인텔리전스 클라이언트 라이브러리에 대해 자세히 알아보세요.