이미지 레이블 지정 프로젝트 설정
Azure Machine Learning에서 이미지에 레이블을 지정하는 데이터 레이블 지정 프로젝트를 만들고 실행하는 방법을 알아봅니다. ML(기계 학습) 지원 데이터 레이블 지정 또는 인간 참여형 레이블 지정을 사용하여 작업을 지원합니다.
분류, 개체 감지(경계 상자), 인스턴스 구분(다각형) 또는 의미 체계 구분(미리 보기)에 대한 레이블을 설정합니다.
또한 Azure Machine Learning에서 데이터 레이블 지정 도구를 사용하여 텍스트 레이블 지정 프로젝트를 만들 수 있습니다.
Important
이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 미리 보기 버전은 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
이미지 레이블 지정 기능
Azure Machine Learning 데이터 레이블 지정은 데이터 레이블 지정 프로젝트를 만들고, 관리하고, 모니터링하는 데 사용할 수 있는 도구입니다. 다음 작업을 수행하는 데 사용합니다.
- 데이터, 레이블 및 팀 구성원를 조정하여 레이블 지정 작업을 효율적으로 관리합니다.
- 진행 상황을 추적하고 불완전한 레이블 지정 작업의 큐를 유지 관리합니다.
- 프로젝트를 시작 및 중지하고 레이블 지정 진행률을 제어합니다.
- 레이블이 지정된 데이터를 검토하고 Azure Machine Learning 데이터 세트로 내보냅니다.
Important
Azure Machine Learning 데이터 레이블 지정 도구에서 사용하는 데이터 이미지는 Azure Blob Storage 데이터 저장소에서 사용할 수 있어야 합니다. 기존 데이터 저장소가 없는 경우 프로젝트를 만들 때 새 데이터 저장소에 데이터 파일을 업로드할 수 있습니다.
이미지 데이터는 다음 파일 확장명 중 하나를 사용하는 파일일 수 있습니다.
.jpg
.jpeg
.png
.jpe
.jfif
.bmp
.tif
.tiff
.dcm
.dicom
각 파일은 레이블이 지정될 항목입니다.
테이블의 이미지가 위의 형식 중 하나라면 MLTable
데이터 자산을 이미지 레이블 지정 프로젝트에 대한 입력으로 사용할 수도 있습니다. 자세한 내용은 MLTable
데이터 자산을 사용하는 방법을 참조하세요.
필수 조건
다음 항목을 사용하여 Azure Machine Learning에서 이미지 레이블 지정을 설정합니다.
- 레이블을 지정하려는 데이터(로컬 파일 또는 Azure Blob 스토리지에 있음)입니다.
- 적용하려는 레이블 세트
- 레이블 지정 지침
- Azure 구독 Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다.
- Azure Machine Learning 작업 영역 Azure Machine Learning 작업 영역 만들기를 참조하세요.
이미지 레이블 지정 프로젝트 만들기
레이블 지정 프로젝트는 Azure Machine Learning에서 관리됩니다. Machine Learning의 데이터 레이블 지정 페이지를 사용하여 프로젝트를 관리합니다.
데이터가 이미 Azure Blob Storage에 있는 경우 레이블 지정 프로젝트를 만들기 전에 해당 스토리지를 데이터 저장소로 사용할 수 있도록 해야 합니다.
프로젝트를 만들려면 프로젝트 추가를 선택합니다.
프로젝트 이름에 프로젝트의 이름을 입력합니다.
프로젝트를 삭제하더라도 프로젝트 이름을 다시 사용할 수 없습니다.
이미지 레이블 지정 프로젝트를 만들려면 미디어 유형으로 이미지를 선택합니다.
레이블 지정 작업 유형에서 다음과 같이 시나리오에 대한 옵션을 선택합니다.
- 레이블 집합의 이미지에 ‘단일 레이블’만 적용하려면 이미지 분류 다중 클래스를 선택합니다.
- 레이블 집합의 이미지에 ‘하나 이상의’ 레이블을 적용하려면 이미지 분류 다중 레이블을 선택합니다. 예를 들어 개의 사진에는 dog 및 daytime이라는 레이블이 모두 지정될 수 있습니다.
- 이미지 내의 각 개체에 레이블을 할당하고 경계 상자를 추가하려면 개체 식별(경계 상자)을 선택합니다.
- 이미지 내의 각 개체에 레이블을 할당하고 각 개체 주위에 다각형을 그리려면 다각형(인스턴스 구분)을 선택합니다.
- 이미지에 마스크를 그리고 픽셀 수준에서 레이블 클래스를 할당하려면 의미 체계 구분(미리 보기)을 선택합니다.
다음을 선택하여 작업을 계속할 수 있습니다.
인력 추가(선택 사항)
Azure Marketplace에서 데이터 레이블 지정 회사와 계약한 경우에만 Azure Marketplace의 공급업체 레이블 지정 회사 사용을 선택합니다. 그런 다음, 공급업체를 선택합니다. 공급업체가 목록에 표시되지 않는 경우 이 옵션을 선택 취소합니다.
먼저 공급업체에 문의하고 계약에 서명해야 합니다. 자세한 내용은 데이터 레이블 지정 공급업체 회사와 작업(미리 보기)을 참조하세요.
다음을 선택하여 작업을 계속할 수 있습니다.
레이블을 지정할 데이터 지정
데이터가 포함된 데이터 세트를 이미 만든 경우 기존 데이터 세트 선택 드롭다운에서 해당 데이터 세트를 선택합니다.
또는 데이터 세트 만들기를 선택하여 기존 Azure 데이터 저장소를 사용하거나 로컬 파일을 업로드할 수도 있습니다.
참고 항목
프로젝트에는 500,000개가 넘는 파일을 포함할 수 없습니다. 데이터 세트가 이 파일 수를 초과하는 경우 처음 500,000개의 파일만 로드됩니다.
데이터 열 매핑(미리 보기)
MLTable 데이터 자산을 선택하면 이미지 URL을 포함하는 열을 지정할 수 있는 또 하나의 데이터 열 매핑 단계가 나타납니다.
이미지 필드에 매핑되는 열을 지정해야 합니다. 필요에 따라 데이터에 있는 다른 열을 매핑할 수도 있습니다. 예를 들어 데이터에 레이블 열이 포함된 경우 범주 필드에 매핑할 수 있습니다. 데이터에 신뢰도 열이 포함된 경우 신뢰도 필드에 매핑할 수 있습니다.
이전 프로젝트에서 레이블을 가져오는 경우 레이블은 만드는 레이블과 동일한 형식이어야 합니다. 예를 들어 경계 상자 레이블을 만드는 경우 가져오는 레이블도 경계 상자 레이블이어야 합니다.
가져오기 옵션(미리 보기)
데이터 열 매핑 단계에 범주 열을 포함하는 경우 가져오기 옵션을 사용하여 레이블이 지정된 데이터를 처리하는 방법을 지정합니다.
이미지 필드에 매핑되는 열을 지정해야 합니다. 필요에 따라 데이터에 있는 다른 열을 매핑할 수도 있습니다. 예를 들어 데이터에 레이블 열이 포함된 경우 범주 필드에 매핑할 수 있습니다. 데이터에 신뢰도 열이 포함된 경우 신뢰도 필드에 매핑할 수 있습니다.
이전 프로젝트에서 레이블을 가져오는 경우 레이블은 만드는 레이블과 동일한 형식이어야 합니다. 예를 들어 경계 상자 레이블을 만드는 경우 가져오는 레이블도 경계 상자 레이블이어야 합니다.
Azure 데이터 저장소에서 데이터 세트 만들기
대부분의 경우 로컬 파일을 업로드할 수 있습니다. 그러나 Azure Storage Explorer는 대량의 데이터를 더 빠르고 강력하게 전송할 수 있는 방법을 제공합니다. 파일을 이동하는 기본 방법으로 Storage Explorer를 사용하는 것이 좋습니다.
Blob Storage에 이미 저장된 데이터에서 데이터 세트를 만들려면 다음을 수행합니다.
- 만들기를 실행합니다.
- 이름에 대해 데이터 세트의 이름을 입력합니다. 선택적으로 설명을 입력합니다.
- 데이터 세트 형식이 파일로 설정되어 있는지 확인합니다. 파일 데이터 세트 형식만 이미지에 대해 지원됩니다.
- 다음을 선택합니다.
- Azure Storage에서를 선택하고 다음을 선택합니다.
- 데이터 저장소를 선택하고, 다음을 선택합니다.
- 데이터가 Blob Storage 내의 하위 폴더에 있으면 찾아보기를 선택하여 경로를 선택합니다.
- 선택한 경로의 하위 폴더에 모든 파일을 포함하려면 경로에
/**
를 추가합니다. - 현재 컨테이너 및 해당 하위 폴더에 모든 데이터를 포함하려면 경로에
**/*.*
를 추가합니다.
- 선택한 경로의 하위 폴더에 모든 파일을 포함하려면 경로에
- 만들기를 실행합니다.
- 만든 데이터 자산을 선택합니다.
업로드된 데이터에서 데이터 세트 만들기
데이터를 직접 업로드하려면 다음을 수행합니다.
- 만들기를 실행합니다.
- 이름에 대해 데이터 세트의 이름을 입력합니다. 선택적으로 설명을 입력합니다.
- 데이터 세트 형식이 파일로 설정되어 있는지 확인합니다. 파일 데이터 세트 형식만 이미지에 대해 지원됩니다.
- 다음을 선택합니다.
- 로컬 파일에서를 선택하고 다음을 선택합니다.
- (선택 사항) 데이터 저장소를 선택합니다. Machine Learning 작업 영역의 기본 Blob 저장소(workspaceblobstore)에 업로드하도록 기본값을 그대로 둡니다.
- 다음을 선택합니다.
- 업로드>파일 업로드 또는 업로드>폴더 업로드를 선택하여 업로드할 로컬 파일 또는 폴더를 선택합니다.
- 브라우저 창에서 파일 또는 폴더를 찾은 다음, 열기를 선택합니다.
- 모든 파일 및 폴더를 지정할 때까지 업로드 를 계속 선택합니다.
- 필요에 따라 이미 있는 경우 덮어쓰기 확인란을 선택할 수 있습니다. 파일 및 폴더 목록을 확인합니다.
- 다음을 선택합니다.
- 세부 정보를 확인합니다. 뒤로를 선택하여 설정을 수정하거나, 만들기를 선택하여 데이터 세트를 만듭니다.
- 마지막으로, 만든 데이터 자산을 선택합니다.
증분 새로 고침 구성
데이터 세트에 새 데이터 파일을 추가하려는 경우 증분 새로 고침을 사용하여 파일을 프로젝트에 추가합니다.
정기적으로 증분 새로 고침 사용을 설정하면 레이블 지정 완성율에 따라 새 파일이 프로젝트에 추가될 수 있도록 정기적으로 데이터 세트를 확인합니다. 프로젝트에 최대 500,000개의 파일이 포함되어 있으면 새 데이터에 대한 확인이 중지됩니다.
프로젝트에서 데이터 저장소의 새 데이터를 지속적으로 모니터링하려면 정기적으로 증분 새로 고침 사용을 선택합니다.
데이터 저장소의 새 파일을 프로젝트에 자동으로 추가하지 않으려면 선택을 취소합니다.
Important
증분 새로 고침을 사용하는 경우 업데이트하려는 데이터 세트에 대한 새 버전을 만들지 마세요. 그렇게 하면 데이터 레이블 지정 프로젝트가 초기 버전에 고정되므로 업데이트가 표시되지 않습니다. 대신 Azure Storage Explorer를 사용하여 Blob Storage의 적절한 폴더에 있는 데이터를 수정합니다.
또한 데이터를 제거하지 마세요. 프로젝트에서 사용하는 데이터 세트에서 데이터를 제거하면 프로젝트에 오류가 발생합니다.
프로젝트를 만든 후 세부 정보 탭을 사용하여 증분 새로 고침을 변경하고, 마지막 새로 고침에 대한 타임스탬프를 보고, 즉시 데이터 새로 고침을 요청합니다.
레이블 클래스 지정
레이블 범주 페이지에서 데이터를 분류할 클래스 집합을 지정합니다.
레이블 지정자의 정확도와 속도는 클래스 중에서 선택할 수 있는 기능에 의해 영향을 받습니다. 예를 들어 식물이나 동물에 대한 전체 속과 종을 자세히 설명하는 대신, 필드 코드를 사용하거나 속을 약어 형식으로 축약합니다.
단순 목록을 사용하거나 레이블 그룹을 만들 수 있습니다.
단순 목록을 만들려면 레이블 범주 추가를 선택하여 각 레이블을 만듭니다.
다른 그룹에서 레이블을 만들려면 레이블 범주 추가를 선택하여 최상위 레이블을 만듭니다. 그런 다음, 각 최상위 수준에서 더하기 기호(+)를 선택하여 해당 범주에 대한 다음 수준의 레이블을 만듭니다. 모든 그룹화에 대해 최대 6개의 수준을 만들 수 있습니다.
태그 지정 프로세스 중에 모든 수준에서 레이블을 선택할 수 있습니다. 예를 들어 Animal
, Animal/Cat
, Animal/Dog
, Color
, Color/Black
, Color/White
및 Color/Silver
레이블은 모두 레이블에 사용할 수 있는 선택 항목입니다. 다중 레이블 프로젝트에서는 각 범주 중 하나를 선택할 필요가 없습니다. 그렇게 하려는 경우 지침에 이 정보를 포함해야 합니다.
이미지 레이블 지정 작업 설명
레이블 지정 작업을 명확하게 설명하는 것이 중요합니다. 레이블 지정 지침 페이지에서 레이블 지정 지침이 있는 외부 사이트에 대한 링크를 추가하거나 페이지의 편집 상자에서 지침을 제공할 수 있습니다. 작업 지향적이고 대상 그룹에 적합한 지침을 유지합니다. 고려해야 하는 질문은 다음과 같습니다.
- 레이블 지정자에게는 어떤 레이블이 표시되며 이중에서 선택하려면 어떻게 해야 하나요? 참조할 참조 텍스트가 있나요?
- 적절한 레이블이 없는 경우 어떻게 해야 하나요?
- 여러 개의 레이블이 적절한 것으로 보이는 경우 어떻게 해야 하나요?
- 레이블에 적용해야 하는 신뢰도 임계값은 무엇인가요? 레이블이 확실하지 않은 경우 레이블 지정자의 최고 추측을 원하시나요?
- 관심 있는 개체가 부분적으로 폐색되거나 겹치는 경우 어떻게 해야 하나요?
- 관심 있는 개체가 이미지의 가장자리에서 잘리는 경우 어떻게 해야 하나요?
- 레이블을 제출한 후에 잘못되었다고 생각하는 경우 어떻게 해야 하나요?
- 조명 조건 불량, 반사, 초점 손실, 원치 않는 배경 포함, 비정상적인 카메라 각도 등과 같은 이미지 품질 문제를 발견하면 어떻게 해야 하나요?
- 여러 검토자가 레이블 적용에 대해 서로 다른 의견을 가지고 있는 경우 어떻게 해야 하나요?
경계 상자와 관련하여 중요한 질문은 다음과 같습니다.
- 이 작업에 대한 경계 상자는 어떻게 정의되나요? 전적으로 개체의 내부에 있어야 하나요, 아니면 외부에 있어야 하나요? 최대한 가깝게 잘라야 하나요, 아니면 약간의 여유 공간이 허용되나요?
- 레이블 지정자에서 경계 상자를 정의하는 경우 적용해야 하는 주의 사항과 일관성의 수준은 어떻게 되나요?
- 각 레이블 클래스의 시각적 정의는 무엇인가요? 각 클래스에 대해 일반, 에지 및 카운터 사례 목록을 제공할 수 있나요?
- 개체가 작은 경우 레이블 지정자는 어떻게 해야 하나요? 개체로 레이블을 지정해야 하나요, 아니면 개체를 배경으로 무시해야 하나요?
- 레이블 지정자는 이미지에 부분적으로만 표시되는 개체를 어떻게 처리해야 하나요?
- 레이블 지정자는 다른 개체에서 부분적으로 적용한 개체를 어떻게 처리해야 하나요?
- 레이블 지정자는 명확한 경계가 없는 개체를 어떻게 처리해야 하나요?
- 레이블 지정자는 관심 있는 개체 클래스가 아니지만 관련 개체 형식과 시각적 유사성이 있는 개체를 어떻게 처리해야 하나요?
참고 항목
레이블 지정자는 숫자 키 1~9를 사용하여 처음 9개의 레이블을 선택할 수 있습니다. 지침에 이 정보를 포함하는 것이 좋습니다.
품질 제어(미리 보기)
보다 정확한 레이블을 얻으려면 품질 제어 페이지에서 각 항목을 여러 레이블 지정자에게 보냅니다.
Important
합의 레이블 지정은 현재 퍼블릭 미리 보기로 제공됩니다.
미리 보기 버전은 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다.
자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
각 항목을 여러 레이블로 보내려면 합의 레이블 지정 사용(미리 보기)을 선택합니다. 그런 다음, 최소 레이블 지정자 및 최대 레이블 지정자에 대한 값을 설정하여 사용할 레이블 지정자의 수를 지정합니다. 사용할 수 있는 최대 수만큼 레이블 지정자가 있는지 확인합니다. 프로젝트가 시작된 후에는 이러한 설정을 변경할 수 없습니다.
최소 레이블 지정자 수에서 합의에 도달하면 항목에 레이블이 지정됩니다. 합의에 도달하지 못하면 항목이 더 많은 레이블 지정자에게 전송됩니다. 항목이 최대 레이블 지정자 수로 전환된 후 합의가 없으면 해당 상태는 검토 필요가 되며 프로젝트 소유자가 항목에 레이블을 지정해야 합니다.
참고 항목
인스턴스 구분 프로젝트는 합의 레이블 지정을 사용할 수 없습니다.
ML 지원 데이터 레이블 지정 사용
레이블 지정 작업을 가속화하기 위해 ML 지원 레이블 지정 페이지에서 자동 기계 학습 모델을 트리거할 수 있습니다. 의료 이미지(.dcm
확장명이 있는 파일)는 보조 레이블 지정에 포함되지 않습니다. 프로젝트 형식이 의미 체계 구분(미리 보기)인 경우 ML 지원 레이블 지정을 사용할 수 없습니다.
레이블 지정 프로젝트가 시작될 때 잠재적인 편향을 줄이기 위해 항목이 임의의 순서로 섞입니다. 그러나 학습된 모델은 데이터 세트에 있는 모든 편향을 반영합니다. 예를 들어 항목의 80%가 단일 클래스인 경우 모델을 학습시키는 데 사용되는 데이터의 약 80%가 해당 클래스에 배치됩니다.
보조 레이블 지정을 사용하도록 설정하려면 ML 지원 레이블 지정 사용을 선택하고 GPU를 지정합니다. 작업 영역에 GPU가 없는 경우 GPU 클러스터(리소스 이름: DefLabelNC6v3, vmsize: Standard_NC6s_v3)가 만들어지고 작업 영역에 추가됩니다. 클러스터는 최소 0개 노드로 생성됩니다. 즉, 사용하지 않을 때는 비용이 들지 않습니다.
ML 지원 레이블 지정은 다음 두 단계로 구성됩니다.
- Clustering
- 사전 레이블 지정
보조 레이블 지정을 시작하는 데 필요한 레이블이 지정된 데이터 항목 수는 고정된 수가 아닙니다. 이 수는 레이블 지정 프로젝트마다 크게 다를 수 있습니다. 일부 프로젝트의 경우 300개의 항목에 수동으로 레이블을 지정하면 사전 레이블 또는 클러스터 작업이 보이는 경우가 있을 수 있습니다. ML 지원 레이블 지정은 전이 학습이라는 기술을 사용합니다. 전이 학습은 미리 학습된 모델을 사용하여 학습 프로세스를 신속하게 시작합니다. 데이터 세트의 클래스가 미리 학습된 모델의 클래스와 유사한 경우 수동으로 레이블이 지정된 항목이 몇백 개만 있어도 사전 레이블을 사용할 수 있습니다. 데이터 세트가 모델을 미리 학습시키는 데 사용하는 데이터와 크게 다른 경우 프로세스가 더 오래 걸릴 수 있습니다.
합의 레이블 지정을 사용하는 경우 합의 레이블이 학습에 사용됩니다.
최종 레이블에서 여전히 레이블 지정자의 입력을 사용하므로 이 기술을 인간 참여형 레이블 지정이라고 하는 경우도 있습니다.
참고 항목
ML 지원 데이터 레이블 지정은 가상 네트워크 뒤에서 보호되는 기본 스토리지 계정을 지원하지 않습니다. ML 지원 데이터 레이블 지정에는 기본이 아닌 스토리지 계정을 사용해야 합니다. 기본이 아닌 스토리지 계정은 가상 네트워크 뒤에서 보호할 수 있습니다.
Clustering
일부 레이블을 제출하면 분류 모델이 유사한 항목을 그룹화하기 시작합니다. 이러한 유사한 이미지는 수동 태그 지정을 보다 효율적으로 만드는 데 도움이 되도록 레이블 지정자에게 동일한 페이지에 표시됩니다. 클러스터링은 레이블 지정자가 4개, 6개 또는 9개의 이미지 그리드를 볼 때 특히 유용합니다.
기계 학습 모델이 수동으로 레이블이 지정된 데이터에 대해 학습되면 모델은 마지막으로 완전히 연결된 계층으로 잘립니다. 그런 다음, 레이블이 없는 이미지가 일반적으로 ‘포함’ 또는 ‘기능화’라는 프로세스에서 잘린 모델을 통과합니다. 이 프로세스는 모델 계층이 정의하는 고차원 공간에 각 이미지를 포함합니다. 해당 공간에서 이미지와 가장 가까운 다른 이미지가 클러스터링 작업에 사용됩니다.
개체 감지 모델 또는 텍스트 분류에 대해서는 클러스터링 단계가 표시되지 않습니다.
사전 레이블 지정
학습을 위한 충분한 레이블을 제출하면 분류 모델이 태그를 예측하거나 개체 감지 모델이 경계 상자를 예측합니다. 이제 레이블 지정자에는 이미 각 항목에 있는 예측된 레이블이 포함된 페이지가 표시됩니다. 개체 검색의 경우 예측 상자도 표시됩니다. 이 작업에는 페이지 제출 전에 이러한 예측을 검토하고 레이블이 잘못 지정된 이미지를 수정하는 작업이 포함됩니다.
기계 학습 모델이 수동으로 레이블이 지정된 데이터가 학습되면 수동으로 레이블이 지정된 항목의 테스트 세트에 대해 모델이 평가됩니다. 이 평가는 서로 다른 신뢰도 임계값에서 모델의 정확도를 결정하는 데 도움이 됩니다. 이 평가 프로세스는 모델이 사전 레이블을 보여줄 수 있을 만큼 정확한지를 판단하는 신뢰도 임계값을 설정합니다. 그런 다음, 레이블이 없는 데이터에 대해 모델을 평가합니다. 임계값보다 더 확실하게 예측되는 항목은 사전 레이블 지정에 사용됩니다.
이미지 레이블 지정 프로젝트 초기화
레이블 지정 프로젝트가 초기화되면 프로젝트의 일부 측면을 변경할 수 없습니다. 작업 유형 또는 데이터 세트는 변경할 수 없습니다. 작업 설명에 대한 레이블과 URL은 수정할 수 있습니다. 먼저 설정을 신중하게 검토한 후에 프로젝트를 만들어야 합니다. 프로젝트를 제출한 후에는 데이터 레이블 지정 개요 페이지로 돌아갑니다. 이 페이지에서 프로젝트는 초기화 중으로 표시됩니다.
참고 항목
개요 페이지 새로 고침이 자동으로 이루어지지 않을 수 있습니다. 잠시 중지했다가 페이지를 수동으로 새로 고쳐 프로젝트의 상태가 만들어짐인지 확인합니다.
문제 해결
프로젝트를 만들거나 데이터에 액세스하는 데 문제가 있는 경우 데이터 레이블 지정 문제 해결을 참조하세요.