다음을 통해 공유


Azure Machine Learning 디자이너로 데이터 가져오기

이 문서에서는 사용자 고유의 데이터를 디자이너에 가져와서 사용자 지정 솔루션을 만드는 방법을 알아봅니다. 데이터를 디자이너로 가져오는 두 가지 방법은 다음과 같습니다.

  • Azure Machine Learning 데이터 세트 - Azure Machine Learning에 데이터 세트를 등록하여 데이터를 관리하는 데 도움이 되는 고급 기능을 사용합니다.
  • 데이터 가져오기 구성 요소 - 데이터 가져오기 구성 요소를 사용하여 온라인 데이터 원본에서 데이터에 직접 액세스합니다.

Important

스튜디오 또는 디자이너의 단추와 같이 이 문서에 언급된 그래픽 요소가 보이지 않는 경우 작업 영역에 대한 적절한 사용 권한이 없는 것일 수 있습니다. Azure 구독 관리자에게 문의하여 적절한 액세스 권한이 부여되었는지 확인하세요. 자세한 내용은 사용자 및 역할 관리를 참조하세요.

Azure Machine Learning 데이터 세트 사용

데이터 세트를 사용하여 디자이너로 데이터를 가져오는 것이 좋습니다. 데이터 세트를 등록할 때 버전 관리 및 추적데이터 모니터링 같은 고급 데이터 기능을 최대한 활용할 수 있습니다.

데이터 세트 등록

SDK를 사용하여 프로그래밍 방식으로 또는 Azure Machine Learning 스튜디오에서 시각적으로 기존 데이터 세트를 등록할 수 있습니다.

모든 디자이너 구성 요소의 출력을 데이터 세트로 등록할 수도 있습니다.

  1. 등록하려는 데이터를 출력하는 구성 요소를 선택합니다.

  2. 속성 창에서 출력 + 로그>데이터 세트 등록을 선택합니다.

    Screenshot showing how to navigate to the Register Dataset option

구성 요소 출력 데이터가 표 형식인 경우 출력을 파일 데이터 세트 또는 표 형식 데이터 세트로 등록하도록 선택해야 합니다.

  • 파일 데이터 세트는 구성 요소의 출력 폴더를 파일 데이터 세트로 등록합니다. 출력 폴더에는 디자이너에서 내부적으로 사용하는 데이터 파일 및 메타 파일이 포함되어 있습니다. 디자이너에서 등록된 데이터 세트를 계속 사용하려는 경우 이 옵션을 선택합니다.

  • 표 형식 데이터 세트는 구성 요소의 출력 데이터 파일만 표 형식 데이터 세트로 등록합니다. 이 형식은 자동화된 Machine Learning 또는 Python SDK와 같은 다른 도구에서 쉽게 사용할 수 있습니다. 디자이너 외부에서 등록된 데이터 세트를 사용할 계획인 경우 이 옵션을 선택합니다.

데이터 세트 사용

등록된 데이터 세트는 데이터 세트에 있는 구성 요소 팔레트에서 찾을 수 있습니다. 데이터 세트를 사용하려면 파이프라인 캔버스로 끌어서 놓습니다. 그런 다음, 데이터 세트의 출력 포트를 캔버스의 다른 구성 요소에 연결합니다.

파일 데이터 세트를 등록하는 경우 데이터 세트의 출력 포트 유형은 AnyDirectory입니다. 테이블 형식 데이터 세트를 등록하는 경우 데이터 세트의 출력 포트 유형은 DataFrameDirectory입니다. 데이터 세트의 출력 포트를 디자이너의 다른 구성 요소에 연결하는 경우 데이터 세트 및 구성 요소의 포트 유형을 정렬해야 합니다.

Screenshot showing location of saved datasets in the designer palette

참고 항목

디자이너는 데이터 세트 버전 관리를 지원합니다. 데이터 세트 구성 요소의 속성 패널에서 데이터 세트 버전을 지정합니다.

제한 사항

  • 현재는 디자이너에서 테이블 형식 데이터 세트만 시각화할 수 있습니다. 디자이너 외부에서 파일 데이터 세트를 등록하는 경우 디자이너 캔버스에서 시각화할 수 없습니다.
  • 현재, 디자이너는 Azure Blob Storage에 저장되는 미리 보기 출력만 지원합니다. 구성 요소의 오른쪽 패널에 있는 매개 변수 탭의 출력 설정에서 출력 데이터 저장소를 확인하고 변경할 수 있습니다.
  • 데이터가 VNet(가상 네트워크)에 저장되어 있고 미리 보려는 경우 작업 영역 관리 ID를 사용하도록 설정해야 합니다.
    1. 관련 데이터 저장소로 이동 및 인증 업데이트Update Credentials 클릭
    2. 작업 영역 관리 ID를 사용하도록 설정하려면 를 선택합니다. Enable Workspace Managed Identity

데이터 가져오기 구성 요소를 사용하여 데이터 가져오기

데이터 세트를 사용하여 데이터를 가져오는 것이 좋지만 데이터 가져오기 구성 요소를 사용할 수도 있습니다. 데이터 가져오기 구성 요소는 Azure Machine Learning에 데이터 세트를 등록하는 과정을 건너뛰고 데이터 저장소 또는 HTTP URL에서 직접 데이터를 가져옵니다.

데이터 가져오기 구성 요소를 사용하는 방법에 대한 자세한 내용은 데이터 가져오기 참조 페이지를 확인하세요.

참고 항목

데이터 세트에 너무 많은 열이 있는 경우 다음과 같은 오류가 발생할 수 있습니다. "크기 제한으로 인해 유효성 검사에 실패했습니다." 이 문제를 방지하려면 데이터 세트 인터페이스에 데이터 세트를 등록합니다.

지원되는 소스

이 섹션에서는 디자이너가 지원하는 데이터 원본을 나열합니다. 데이터 저장소 또는 테이블 형식 데이터 세트의 데이터를 디자이너로 가져올 수 있습니다.

데이터 저장소 원본

지원되는 데이터 저장소 원본 목록은 Azure Storage 서비스에서 데이터 액세스를 참조하세요.

테이블 형식 데이터 세트 원본

디자이너는 다음 원본으로 생성된 테이블 형식 데이터 세트를 지원합니다.

  • 구분 기호로 분리된 파일
  • JSON 파일
  • Parquet 파일
  • SQL 쿼리

데이터 형식

디자이너는 내부적으로 다음 데이터 형식을 인식합니다.

  • String
  • 정수
  • Decimal
  • 부울
  • Date

이 디자이너에서는 내부 데이터 형식을 사용하여 구성 요소 간에 데이터를 전달합니다. 데이터 세트로 변환 구성 요소를 사용하여 명시적으로 데이터를 데이터 테이블 형식으로 변환할 수 있습니다. 내부 형식 이외의 형식을 허용하는 모든 구성 요소에서는 다음 구성 요소에 데이터를 전달하기 전에 데이터를 자동으로 변환합니다.

데이터 제약 조건

디자이너의 모듈은 컴퓨팅 대상의 크기로 제한됩니다. 큰 데이터 세트의 경우 더 큰 Azure Machine Learning 컴퓨팅 리소스를 사용해야 합니다. Azure Machine Learning 컴퓨팅에 대한 자세한 내용은 Azure Machine Learning의 컴퓨팅 대상이란?을 참조하세요.

가상 네트워크의 데이터 액세스

작업 영역이 가상 네트워크에 있는 경우 디자이너에서 데이터를 시각화하는 추가 구성 단계를 수행해야 합니다. 가상 네트워크에서 데이터 저장소 및 데이터 세트를 사용하는 방법에 대한 자세한 내용은 Azure 가상 네트워크에서 Azure Machine Learning 스튜디오 사용을 참조하세요.

다음 단계

자습서: 디자이너에서 자동차 가격 예측을 통해 디자이너 기본 사항을 알아봅니다.