Azure Machine Learning 디자이너 데이터 변환

아티클
03/20/2024

이 문서에서는 Azure Machine Learning 디자이너에서 데이터 세트를 변환하고 저장하여 기계 학습을 위해 사용자 고유의 데이터를 준비하는 방법을 알아봅니다.

샘플 성인 인구 조사 소득 이진 분류 데이터 세트를 사용하여 2개의 데이터 세트를 준비합니다. 2개 중 하나에는 미국의 성인 인구 조사 정보만 포함되고, 다른 하나에는 미국 이외의 인구 조사 정보가 포함됩니다.

이 문서에서는 다음을 수행하는 방법을 알아봅니다.

학습 준비를 위해 데이터 세트를 변환합니다.
결과 데이터 세트를 데이터 저장소로 내보냅니다.
결과를 확인합니다.

이 방법 안내 문서는 디자이너 모델 재학습 방법 문서의 필수 조건 문서입니다. 이 문서에서는 변환된 데이터 세트를 사용하여 파이프라인 매개 변수로 여러 모델을 학습시키는 방법을 알아봅니다.

Important

스튜디오 또는 디자이너의 단추와 같이 이 문서에 멘션 그래픽 요소를 관찰하지 않으면 작업 영역에 대한 올바른 수준의 사용 권한이 없을 수 있습니다. Azure 구독 관리자에게 문의하여 적절한 액세스 권한이 부여되었는지 확인하세요. 자세한 내용은 사용자 및 역할 관리를 참조 하세요.

데이터 세트 변환

이 섹션에서는 샘플 데이터 세트를 가져오고 데이터를 미국 및 미국 외 데이터 세트로 분할하는 방법을 알아봅니다. 디자이너로 데이터를 가져오는 방법에 대한 자세한 내용은 데이터를 가져오는 방법을 참조하세요.

데이터 가져오기

다음 단계를 사용하여 샘플 데이터 세트를 가져옵니다.

Azure Machine Learning 스튜디오 로그인하고 사용하려는 작업 영역을 선택합니다.
디자이너로 이동합니다. 클래식 미리 빌드된 구성 요소를 사용하여 새 파이프라인 만들기를 선택하여 새 파이프라인 만들기
파이프라인 캔버스의 왼쪽에 있는 구성 요소 탭에서 샘플 데이터 노드를 확장합니다.
성인 인구 조사 소득 이진 분류 데이터 세트를 캔버스로 끌어서 놓습니다.
성인 인구 조사 소득 데이터 세트 구성 요소를 마우스 오른쪽 으로 선택하고 데이터 미리 보기를 선택합니다.
데이터 미리 보기 창을 사용하여 데이터 세트를 살펴봅니다. "네이티브 국가" 열 값을 특별히 기록해 둡니다.

데이터 분할

이 섹션에서는 데이터 분할 구성 요소를 사용하여 "네이티브 국가" 열에 "United-States"가 포함된 행을 식별하고 분할합니다.

캔버스 왼쪽의 구성 요소 탭에서 데이터 변환 섹션을 확장하고 데이터 분할 구성 요소를 찾 습니다.
데이터 분할 구성 요소를 캔버스로 끌어다 놓고 해당 구성 요소를 데이터 세트 구성 요소 아래에 놓습니다.
데이터 세트 구성 요소를 에 커넥트 데이터 분할 구성 요소
데이터 분할 구성 요소를 선택하여 데이터 분할 창을 엽니다.
매개 변수 아이콘의 캔버스 오른쪽에서 분할 모드를 정규식으로 설정합니다.
정규식을 입력합니다.\"native-country" United-States

이 정규식 모드는 특정 값으로 단일 열을 테스트합니다. 데이터 분할 구성 요소에 대한 자세한 내용은 관련 알고리즘 구성 요소 참조 페이지를 참조하세요.

파이프라인은 다음 스크린샷과 유사합니다.

파이프라인 및 데이터 분할 구성 요소를 구성하는 방법을 보여 주는 스크린샷

데이터 세트 저장

이제 파이프라인이 데이터를 분할하도록 설정되었으므로, 데이터 세트를 보관할 위치를 지정해야 합니다. 이 예에서는 데이터 내보내기 구성 요소를 사용하여 데이터 세트를 데이터 저장소에 저장합니다. 데이터 저장소에 대한 자세한 내용은 Azure Storage 서비스 커넥트 방문하세요.

구성 요소 팔레트의 캔버스 왼쪽에서 데이터 입력 및 출력 섹션을 확장하고 데이터 내보내기 구성 요소를 찾습니다.
데이터 분할 구성 요소 아래에 데이터 내보내기 구성 요소 두 개 끌어서 놓기
의 각 출력 포트 커넥트 데이터 구성 요소를 다른 데이터 내보내기 구성 요소로 분할

파이프라인은 다음과 유사합니다.
데이터 분할 구성 요소의 가장 왼쪽 포트에 연결된 데이터 내보내기 구성 요소를 선택하여 데이터 내보내기 구성 창을 엽니다.

데이터 분할 구성 요소의 경우 출력 포트 순서가 중요합니다. 첫 번째 출력 포트에는 정규식이 true인 행이 포함됩니다. 이 경우 첫 번째 포트에는 미국 기반 소득에 대한 행이 포함되고 두 번째 포트에는 미국 이외의 소득에 대한 행이 포함됩니다.
캔버스 오른쪽에 있는 구성 요소 세부 정보 창에서 다음 옵션을 설정합니다.

데이터 저장소 형식: Azure Blob Storage

데이터 저장소: 기존 데이터 저장소를 선택하거나 "새 데이터 저장소"를 선택하여 새 데이터 저장소를 만듭니다.

경로: /data/us-income

파일 형식: csv

참고 항목

이 문서에서는 사용자에게 현재 Azure Machine Learning 작업 영역에 등록된 데이터 저장소에 대한 액세스 권한이 있다고 가정합니다. 데이터 저장소 설정 지침에 대한 Azure Storage 서비스 커넥트 방문

데이터 저장소가 없는 경우 데이터 저장소를 만들 수 있습니다. 예를 들어 이 문서에서는 데이터 세트를 작업 영역과 연결된 기본 Blob Storage 계정에 저장합니다. 데이터 세트를 컨테이너에 azureml 저장하고 새 폴더에 저장합니다. data
데이터 분할 구성 요소의 가장 오른쪽 포트에 연결된 데이터 내보내기 구성 요소를 선택하여 데이터 내보내기 구성 창을 엽니다.
캔버스 오른쪽에 있는 모듈 세부 정보 창에서 다음 옵션을 설정합니다.

데이터 저장소 형식: Azure Blob Storage

데이터 저장소: 이전 데이터 저장소 선택

경로: /data/non-us-income

파일 형식: csv
분할 데이터의 왼쪽 포트에 연결된 데이터 내보내기 구성 요소에 경로가 있는지 확인합니다./data/us-income
오른쪽 포트에 연결된 데이터 내보내기 구성 요소에 경로가 있는지 확인합니다./data/non-us-income

파이프라인 및 설정이 다음과 같이 표시됩니다.

작업 제출

이제 데이터를 분할하고 내보내도록 파이프라인이 설정되었으므로 파이프라인 작업을 제출합니다.

캔버스 맨 위에서 구성 및 제출 선택
파이프라인 작업 설정의 기본 사항 창에서 새 만들기 옵션을 선택하여 실험을 만듭니다.

실험은 관련된 파이프라인 작업을 논리적으로 그룹으로 묶습니다. 나중에 이 파이프라인을 실행하는 경우 로깅 및 추적 목적으로 동일한 실험을 사용해야 합니다.
설명이 포함된 실험 이름(예: "split-census-data")을 제공합니다.
검토 + 제출을 선택한 다음 제출을 선택합니다.

결과 보기

파이프라인 실행이 완료되면 Azure Portal Blob Storage로 이동하여 결과를 볼 수 있습니다. 데이터 분할 구성 요소의 중간 결과를 확인하여 데이터가 올바르게 분할되었는지 확인할 수도 있습니다.

데이터 분할 구성 요소 선택
캔버스 오른쪽의 구성 요소 세부 정보 창에서 출력 + 로그 탭을 선택합니다.
데이터 출력 표시 드롭다운 선택
결과 데이터 세트 옆에 있는 시각화 아이콘 선택1
"native-country" 열에 "United-States" 값만 포함되어 있는지 확인합니다.
결과 데이터 세트2 옆에 있는 시각화 아이콘 선택
"native-country" 열에 "United-States" 값이 포함되어 있지 않은지 확인합니다.

리소스 정리

이 방법 안내 문서의 2부, Azure Machine Learning 디자이너로 모델 재학습을 계속하려면 이 섹션을 건너뛰세요.

Important

만든 리소스를 다른 Azure Machine Learning 자습서 및 사용 방법 문서의 필수 구성 요소로 사용할 수 있습니다.

모든 항목 삭제

사용자가 만든 항목을 사용하지 않으려면 요금이 발생하지 않도록 전체 리소스 그룹을 삭제하세요.

Azure Portal의 창 왼쪽에서 리소스 그룹을 선택합니다.
목록에서 만든 리소스 그룹을 선택합니다.
리소스 그룹 삭제를 선택합니다.

리소스 그룹을 삭제하면 디자이너에서 만든 모든 리소스도 삭제됩니다.

개별 자산 삭제

실험을 만든 디자이너에서 개별 자산을 선택한 다음, 삭제 단추를 선택하여 자산을 삭제합니다.

여기에서 만든 컴퓨팅 대상은 사용하지 않을 경우 제로 노드로 자동 스케일링됩니다. 이 작업은 요금을 최소화하기 위해 수행됩니다. 컴퓨팅 대상을 삭제하려는 경우 다음 단계를 수행합니다.

자산 삭제

각 데이터 세트를 선택하고 등록 취소를 선택하여 작업 영역에서 데이터 세트를 등록 취소할 수 있습니다.

데이터 세트 등록 취소

데이터 세트를 삭제하려면 Azure Portal 또는 Azure Storage Explorer를 사용하여 스토리지 계정으로 이동하여 해당 자산을 수동으로 삭제합니다.

다음 단계

이 문서에서는 데이터 세트를 변환하고 등록된 데이터 저장소에 저장하는 방법을 배웠습니다.

변환된 데이터 세트 및 파이프라인 매개 변수를 사용해서 기계 학습 모델 학습을 계속하려면 이 방법 시리즈의 다음 문서인 Azure Machine Learning 디자이너로 모델 재학습을 계속 진행하세요.