다음을 통해 공유


Azure Machine Learning 디자이너 데이터 변환

이 문서에서는 기계 학습을 위해 사용자 고유의 데이터를 준비하도록 Azure Machine Learning 디자이너에서 데이터 세트를 변환 및 저장하는 방법을 알아봅니다.

샘플 성인 인구 조사 소득 이진 분류 데이터 세트를 사용하여 2개의 데이터 세트를 준비합니다. 2개 중 하나에는 미국의 성인 인구 조사 정보만 포함되고, 다른 하나에는 미국 이외의 인구 조사 정보가 포함됩니다.

이 문서에서는 다음을 수행하는 방법을 알아봅니다.

  1. 학습 준비를 위해 데이터 세트를 변환합니다.
  2. 결과 데이터 세트를 데이터 저장소로 내보냅니다.
  3. 결과를 확인합니다.

이 방법 안내 문서는 디자이너 모델 재학습 방법 문서의 필수 조건 문서입니다. 이 문서에서는 변환된 데이터 세트를 사용하여 파이프라인 매개 변수로 여러 모델을 학습시키는 방법을 알아봅니다.

Important

스튜디오 또는 디자이너의 단추와 같이 이 문서에 언급된 그래픽 요소가 관찰되지 않으면 작업 영역에 대한 올바른 수준의 권한이 없을 수 있습니다. Azure 구독 관리자에게 문의하여 적절한 액세스 권한이 부여되었는지 확인하세요. 자세한 내용은 사용자 및 역할 관리를 참조하세요.

데이터 세트 변환

이 섹션에서는 샘플 데이터 세트를 가져오고 데이터를 미국 및 미국 외 데이터 세트로 분할하는 방법을 알아봅니다. 디자이너로 사용자 고유의 데이터를 가져오는 방법에 대한 자세한 내용은 데이터를 가져오는 방법을 참조하세요.

데이터 가져오기

다음 단계를 사용하여 샘플 데이터 세트를 가져옵니다.

  1. Azure Machine Learning 스튜디오에 로그인하고 사용하려는 작업 영역을 선택합니다.

  2. 디자이너로 이동합니다. 새 파이프라인을 만들려면 클래식 미리 빌드 구성 요소를 사용하여 새 파이프라인 만들기를 선택합니다.

  3. 파이프라인 캔버스 왼쪽에 있는 구성 요소 탭에서 샘플 데이터 노드를 확장합니다.

  4. 성인 인구 조사 소득 이진 분류 데이터 세트를 캔버스로 끌어서 놓습니다.

  5. 성인 인구 조사 소득 데이터 세트 구성 요소를 마우스 오른쪽 단추로 선택하고 데이터 미리 보기를 선택합니다.

  6. 데이터 미리 보기 창을 사용하여 데이터 세트를 살펴봅니다. "native-country" 열 값에 특히 주의하세요.

데이터 분할

이 섹션에서는 데이터 분할 구성 요소를 사용하여 "native-country" 열에 "United-States"가 포함된 행을 식별하고 이를 분할합니다.

  1. 캔버스 왼쪽의 구성 요소 탭에서 데이터 변환 섹션을 확장하고 데이터 분할 구성 요소를 찾습니다.

  2. 데이터 분할 구성 요소를 캔버스로 끌어오고 데이터 세트 구성 요소 아래에 놓습니다.

  3. 데이터 세트 구성 요소를 데이터 분할 구성 요소에 연결합니다.

  4. 데이터 분할 구성 요소를 선택하여 데이터 분할 창을 엽니다.

  5. 캔버스 오른쪽의 매개 변수 아이콘에서 분할 모드정규식으로 설정합니다.

  6. 정규식 \"native-country" United-States를 입력합니다.

    정규식 모드는 특정 값으로 단일 열을 테스트합니다. 데이터 분할 구성 요소에 대한 자세한 내용은 관련 알고리즘 구성 요소 참조 페이지를 참조하세요.

파이프라인은 다음 스크린샷과 유사해야 합니다.

파이프라인 및 데이터 분할 구성 방법을 보여 주는 스크린샷.

데이터 세트 저장

이제 파이프라인이 데이터를 분할하도록 설정되었으므로, 데이터 세트를 보관할 위치를 지정해야 합니다. 이 예에서는 데이터 내보내기 구성 요소를 사용하여 데이터 세트를 데이터 저장소에 저장합니다. 데이터 저장소에 대한 자세한 내용은 Azure Storage 서비스에 연결을 참조하세요.

  1. 캔버스 왼쪽의 구성 요소 팔레트에서 데이터 입력 및 출력 섹션을 확장하고 데이터 내보내기 구성 요소를 찾습니다.

  2. 데이터 분할 구성 요소 아래에 두 개의 데이터 내보내기구성 요소를 끌어서 놓습니다.

  3. 데이터 분할 구성 요소의 각 출력 포트를 서로 다른 데이터 내보내기 구성 요소에 연결합니다.

    파이프라인은 다음과 유사해야 합니다.

    데이터 내보내기 구성 요소를 연결하는 방법을 보여 주는 스크린샷.

  4. 데이터 분할 구성 요소의 왼쪽 포트에 연결된 데이터 내보내기 구성 요소를 선택하여 데이터 내보내기 구성 창을 엽니다.

    데이터 분할 구성 요소의 경우 출력 포트 순서가 중요합니다. 첫 번째 출력 포트에는 정규식이 true인 행이 포함됩니다. 여기에서는 첫 번째 포트에 미국 내 소득에 대한 행이 포함되고, 두 번째 포트에는 미국 외 소득에 대한 행이 포함됩니다.

  5. 캔버스 오른쪽에 있는 구성 요소 세부 정보 창에서 다음 옵션을 설정합니다.

    데이터 저장소 형식: Azure Blob Storage

    데이터 저장소: 기존 데이터 저장소를 선택하거나 "새 데이터 저장소"를 선택하여 새 데이터 저장소를 만듭니다.

    경로: /data/us-income

    파일 형식: csv

    참고 항목

    이 문서에서는 사용자에게 현재 Azure Machine Learning 작업 영역에 등록된 데이터 저장소에 대한 액세스 권한이 있다고 가정합니다. 데이터 저장소 설정 지침의 경우 Azure Storage 서비스에 연결을 참조하세요.

    데이터 저장소가 없는 경우 데이터 저장소를 만들 수 있습니다. 예를 위해 이 문서에서는 작업 영역과 연결된 기본 Blob Storage 계정에 데이터 세트를 저장합니다. 데이터 세트는 data라는 새 폴더의 azureml 컨테이너에 저장됩니다.

  6. 데이터 분할 구성 요소의 오른쪽 포트에 연결된 데이터 내보내기 구성 요소를 선택하여 데이터 내보내기 구성 창을 엽니다.

  7. 캔버스 오른쪽에 있는 모듈 세부 정보 창에서 다음 옵션을 설정합니다.

    데이터 저장소 형식: Azure Blob Storage

    데이터 저장소: 이전 데이터 저장소를 선택합니다.

    경로: /data/non-us-income

    파일 형식: csv

  8. 데이터 분할의 왼쪽 포트에 연결된 데이터 내보내기 구성 요소에 경로 /data/us-income가 포함되었는지 확인합니다.

  9. 오른쪽 포트에 연결된 데이터 내보내기 구성 요소에 경로 /data/non-us-income가 포함되었는지 확인합니다.

    파이프라인 및 설정이 다음과 같이 표시됩니다.

    데이터 내보내기 구성 요소를 구성하는 방법을 보여 주는 스크린샷.

작업 제출

이제 데이터를 분할하고 내보내도록 파이프라인이 설정되었으므로 파이프라인 작업을 제출합니다.

  1. 캔버스 상단에서 구성 및 제출을 선택합니다.

  2. 실험을 만들려면 파이프라인 작업 설정의 기본 사항 창에서 새로 만들기 옵션을 선택합니다.

    실험은 관련된 파이프라인 작업을 논리적으로 그룹으로 묶습니다. 나중에 이 파이프라인을 실행할 때는 로깅 및 추적 목적으로 동일한 실험을 사용해야 합니다.

  3. 설명이 포함된 실험 이름(예: "split-census-data")을 제공합니다.

  4. 검토 + 제출을 선택한 다음 제출을 선택합니다.

결과 보기

파이프라인 실행이 완료되면 Azure Portal Blob Storage로 이동하여 결과를 볼 수 있습니다. 또한 데이터 분할 구성 요소의 중간 결과를 보고 데이터가 올바르게 분할되었는지 확인할 수도 있습니다.

  1. 데이터 분할 구성 요소를 선택합니다.

  2. 캔버스 오른쪽에 있는 구성 요소 세부 정보 창에서 출력 + 로그 탭을 선택합니다.

  3. 데이터 출력 표시 드롭다운을 선택합니다.

  4. 결과 데이터 세트1 옆에 있는 시각화 아이콘 시각화 아이콘을 선택합니다.

  5. "native-country" 열에 값이 “United-States”만 있는지 확인합니다.

  6. 결과 데이터 세트2 옆에 있는 시각화 아이콘 시각화 아이콘을 선택합니다.

  7. "native-country" 열에 "United-States" 값이 없는지 확인합니다.

리소스 정리

이 방법 안내 문서의 2부, Azure Machine Learning 디자이너로 모델 재학습을 계속하려면 이 섹션을 건너뛰세요.

Important

만든 리소스를 다른 Azure Machine Learning 자습서 및 사용 방법 문서의 필수 구성 요소로 사용할 수 있습니다.

모든 항목 삭제

사용자가 만든 항목을 사용하지 않으려면 요금이 발생하지 않도록 전체 리소스 그룹을 삭제하세요.

  1. Azure Portal의 창 왼쪽에서 리소스 그룹을 선택합니다.

    Azure Portal에서 리소스 그룹 삭제

  2. 목록에서 만든 리소스 그룹을 선택합니다.

  3. 리소스 그룹 삭제를 선택합니다.

리소스 그룹을 삭제하면 디자이너에서 만든 모든 리소스도 삭제됩니다.

개별 자산 삭제

실험을 만든 디자이너에서 개별 자산을 선택한 다음, 삭제 단추를 선택하여 자산을 삭제합니다.

여기에서 만든 컴퓨팅 대상은 사용하지 않을 경우 제로 노드로 자동 스케일링됩니다. 이 작업은 요금을 최소화하기 위해 수행됩니다. 컴퓨팅 대상을 삭제하려는 경우 다음 단계를 수행합니다.

자산 삭제

각 데이터 세트를 선택하고 등록 취소를 선택하여 작업 영역에서 데이터 세트를 등록 취소할 수 있습니다.

데이터 세트 등록 취소

데이터 세트를 삭제하려면 Azure Portal 또는 Azure Storage Explorer를 사용하여 스토리지 계정으로 이동하여 해당 자산을 수동으로 삭제합니다.

다음 단계

이 문서에서는 데이터 세트를 변환하고 등록된 데이터 저장소에 저장하는 방법을 배웠습니다.

변환된 데이터 세트 및 파이프라인 매개 변수를 사용해서 기계 학습 모델 학습을 계속하려면 이 방법 시리즈의 다음 문서인 Azure Machine Learning 디자이너로 모델 재학습을 계속 진행하세요.