데이터 가져오기 구성 요소

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

이 구성 요소를 사용하여 기존 클라우드 데이터 서비스에서 기계 학습 파이프라인으로 데이터를 로드할 수 있습니다.

참고

이 구성 요소가 제공하는 모든 기능은 작업 영역 방문 페이지의 데이터 저장소데이터 세트를 통해 수행할 수 있습니다. 데이터 모니터링과 같은 추가 기능을 포함하는 데이터 저장소데이터 세트를 사용하는 것이 좋습니다. 자세히 알아보려면 데이터에 액세스하는 방법데이터 세트를 등록하는 방법 문서를 참조하세요. 등록한 데이터 세트는 디자이너 인터페이스의 데이터 세트 ->내 데이터 세트 범주에서 찾을 수 있습니다. 이 구성 요소는 익숙한 환경을 위해 Studio(클래식) 사용자용으로 예약되어 있습니다.

데이터 가져오기 구성 요소는 다음 원본의 데이터 읽기를 지원합니다.

  • HTTP 사용 URL
  • 데이터 저장소를 통한 Azure 클라우드 스토리지
    • Azure Blob 컨테이너
    • Azure 파일 공유
    • Azure 데이터 레이크
    • Azure Data Lake Gen2
    • Azure SQL Database
    • Azure PostgreSQL

클라우드 스토리지를 사용하기 전에 먼저 Azure Machine Learning 작업 영역에 데이터 저장소를 등록해야 합니다. 자세한 내용은 데이터에 액세스하는 방법을 참조하세요.

원하는 데이터를 정의하고 원본에 연결하면 데이터 가져오기 에서 포함된 값을 기준으로 각 열의 데이터 형식을 유추하고 디자이너 파이프라인에 데이터를 로드합니다. 데이터 가져오기의 출력은 모든 디자이너 파이프라인에서 사용할 수 있는 데이터 세트입니다.

원본 데이터가 변경되면 데이터 세트를 새로 고치고 데이터 가져오기를 다시 실행하여 새 데이터를 추가할 수 있습니다.

경고

작업 영역이 가상 네트워크에 있는 경우 디자이너의 데이터 시각화 기능을 사용하도록 데이터 저장소를 구성해야 합니다. 가상 네트워크에서 데이터 저장소 및 데이터 세트를 사용하는 방법에 대한 자세한 내용은 Azure 가상 네트워크에서 Azure Machine Learning 스튜디오 사용을 참조하세요.

데이터 가져오기를 구성하는 방법

  1. 파이프라인에 데이터 가져오기 구성 요소를 추가합니다. 이 구성 요소는 디자이너의 데이터 입력 및 출력 범주에서 찾을 수 있습니다.

  2. 구성 요소를 선택하여 오른쪽 창을 엽니다.

  3. 데이터 원본을 선택하고 데이터 원본 유형을 선택합니다. HTTP 또는 데이터 저장소를 선택할 수 있습니다.

    데이터 저장소를 선택하는 경우 이미 Azure Machine Learning 작업 영역에 등록된 기존 데이터 저장소를 선택하거나 새 데이터 저장소를 만들 수 있습니다. 그런 다음, 데이터 저장소에서 가져올 데이터의 경로를 정의합니다. 경로 찾아보기를 선택하여 경로를 쉽게 찾아볼 수 있습니다.

    경로 선택 대화 상자를 여는 경로 찾아보기 링크를 보여 주는 스크린샷.

    참고

    데이터 가져오기 구성 요소는 표 형식 데이터 전용입니다. 여러 표 형식 데이터 파일을 한 번에 가져오려는 경우 다음 조건을 충족해야 합니다. 그렇지 않으면 오류가 발생합니다.

    1. 폴더에 모든 데이터 파일을 포함하려면 경로folder_name/**을 입력해야 합니다.
    2. 모든 데이터 파일은 유니코드-8로 인코딩해야 합니다.
    3. 모든 데이터 파일의 열 번호와 열 이름은 같아야 합니다.
    4. 여러 데이터 파일을 가져오면 여러 파일의 모든 행이 순서대로 연결됩니다.
  4. 미리 보기 스키마를 선택하여 포함하려는 열을 필터링합니다. 구문 분석 옵션에서 구분 기호와 같은 고급 설정을 정의할 수도 있습니다.

    열 3, 4, 5, 6이 선택된 스키마 미리 보기 스크린샷.

  5. 출력 다시 생성 확인란은 실행 시간에 출력을 다시 생성하기 위해 구성 요소를 실행할지 여부를 결정합니다.

    이 확인란은 기본적으로 선택 취소되어 있습니다. 즉, 구성 요소가 이전에 동일한 매개 변수로 실행된 경우 시스템은 마지막 실행의 출력을 다시 사용하여 런타임을 단축합니다.

    이 확인란이 선택되어 있으면 시스템은 구성 요소를 한 번 더 실행하여 출력을 다시 생성합니다. 따라서 스토리지의 기본 데이터가 업데이트되는 경우 이 옵션을 선택하면 최신 데이터를 가져오는 데 도움이 될 수 있습니다.

  6. 파이프라인을 제출합니다.

    데이터 가져오기는 데이터를 디자이너에 로드할 때 포함된 값을 기준으로 각 열의 데이터 형식(숫자 또는 범주)을 유추합니다.

    헤더가 있으면 헤더를 사용하여 출력 데이터 집합의 열 이름을 지정합니다.

    데이터에 기존 열 헤더가 없으면 col1, col2,… , coln*. 등의 형식을 사용하여 새 열 이름이 생성됩니다.

결과

가져오기가 완료되면 출력 데이터 세트를 마우스 오른쪽 단추로 클릭하고 시각화를 선택하여 데이터를 성공적으로 가져왔는지 확인합니다.

재사용을 위해 데이터를 저장하려는 경우, 파이프라인이 실행될 때마다 새 데이터 세트를 가져오는 대신 구성 요소의 오른쪽 패널에 있는 출력+로그 탭에서 데이터 세트 등록 아이콘을 선택합니다. 데이터 세트의 이름을 선택합니다. 저장된 데이터 세트는 저장 시 데이터를 보존합니다. 파이프라인의 데이터 세트가 변경되는 경우에도 파이프라인을 다시 실행하면 데이터 세트가 업데이트되지 않습니다. 이는 데이터의 스냅샷을 만드는 데 유용할 수 있습니다.

데이터를 가져온 후 모델링 및 분석을 위해 다음과 같은 몇 가지 추가 준비가 필요할 수 있습니다.

  • 메타데이터 편집을 사용하여 열 이름을 변경하거나, 열을 다른 데이터 형식으로 처리하거나, 일부 열이 레이블이나 기능임을 나타낼 수 있습니다.

  • 데이터 세트의 열 선택을 사용하여 변환하거나 모델링에 사용할 열 하위 집합을 선택합니다. 열 추가 구성 요소를 사용하여 변환되거나 제거된 열을 원래 데이터 세트에 쉽게 다시 연결할 수 있습니다.

  • 파티션 및 샘플을 사용하여 데이터 세트를 나누거나, 샘플링을 수행하거나, 상위 n개 행을 가져옵니다.

제한 사항

데이터 저장소 액세스 제한으로 인해 유추 파이프라인에 데이터 내보내기 구성 요소가 포함되어 있으면 실시간 엔드포인트에 배포할 때 자동으로 제거됩니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.