Azure Machine Learning 스튜디오를 사용하여 데이터에 연결

아티클
03/04/2024

이 문서에서는 Azure Machine Learning 스튜디오를 사용하여 데이터에 액세스하는 방법을 보여줍니다. Azure Machine Learning 데이터 저장소를 사용하여 Azure 스토리지 서비스의 데이터에 연결합니다. 그런 다음 Azure Machine Learning 데이터 세트를 사용하여 ML 워크플로 작업에 대한 데이터를 패키지합니다.

이 표에서는 데이터 저장소 및 데이터 세트의 이점을 정의하고 요약합니다.

Object	설명	이점
데이터 저장소	Azure의 스토리지 서비스에 안전하게 연결하려면 연결 정보(구독 ID, 토큰 승인 등)를 작업 영역과 연결된 Key Vault에 저장	정보가 안전하게 저장되므로 인증 자격 증명 또는 원본 데이터 원본을 위험에 빠뜨리지 않으며 더 이상 스크립트에서 이러한 값을 하드 코딩할 필요가 없음
데이터 집합	데이터 세트를 만들면 해당 메타데이터 복사본과 함께 데이터 원본 위치에 대한 참조도 만들어집니다. 데이터 세트를 사용하면 모델 학습 중에 데이터에 액세스하고, 데이터를 공유하고, 다른 사용자와 공동 작업하고, 데이터 탐색을 위해 pandas와 같은 오픈 소스 라이브러리를 사용할 수 있습니다.	데이터 세트는 지연 평가되고 데이터는 기존 위치에 유지되므로 스토리지에 단일 데이터 복사본을 유지합니다. 또한 추가 스토리지 비용이 발생하지 않고, 원본 데이터 소스에 대한 의도치 않은 변경을 방지하며, ML 워크플로 성능 속도를 향상시킬 수 있습니다.

전체 Azure Machine Learning 데이터 액세스 워크플로에서 데이터 저장소 및 데이터 세트가 적합한 위치를 알아보려면 데이터에 안전하게 액세스에 방문하세요.

Azure Machine Learning Python SDK의 코드 우선 환경에 대한 자세한 내용은 다음을 참조하세요.

필수 구성 요소

Azure 구독 Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다. Azure Machine Learning 평가판 또는 유료 버전 사용해 보기
Azure Machine Learning 스튜디오에 액세스
Azure Machine Learning 작업 영역 작업 영역 리소스 만들기
- 작업 영역을 만들면 Azure Blob 컨테이너와 Azure 파일 공유가 자동으로 작업 영역에 데이터 저장소로 등록됩니다. 각각 이름이 workspaceblobstore 및 workspacefilestore로 지정됩니다. 충분한 Blob Storage 리소스의 경우 workspaceblobstore이(가) 이미 사용하도록 구성된 기본 데이터 저장소로 설정됩니다. 더 많은 blob 스토리지 리소스가 필요한 경우 지원되는 스토리지 유형이 있는 Azure 스토리지 계정이 필요합니다.

데이터 저장소 만들기

이 Azure 스토리지 솔루션에서 데이터 저장소를 만들 수 있습니다. 지원되지 않는 스토리지 솔루션의 경우 ML 실험 중에 데이터 송신 비용을 절약하려면 지원되는 Azure Storage 솔루션으로 데이터를 이동해야 합니다. 데이터 저장소에 대한 자세한 내용은 이 리소스를 방문하세요.

자격 증명 기반 액세스 또는 ID 기반 액세스를 사용하여 데이터 저장소를 만들 수 있습니다.

자격 증명 기반
ID 기반

Azure Machine Learning 스튜디오를 사용하여 새 데이터 저장소를 만듭니다.

Important

데이터 스토리지 계정이 가상 네트워크에 있는 경우 스튜디오가 데이터에 액세스할 수 있도록 추가 구성 단계가 필요합니다. 적절한 구성 단계에 대한 자세한 내용은 네트워크 격리 및 개인 정보를 방문하세요.

Azure Machine Learning Studio에 로그인합니다.
자산 아래의 왼쪽 창에서 데이터를 선택합니다.
맨 위에서 데이터 저장소를 선택합니다.
+만들기를 선택합니다.
양식을 완료하여 새 데이터 저장소를 만들고 등록합니다. 이 양식은 사용자가 선택하는 Azure 스토리지 유형 및 인증 형식에 따라 지능적으로 업데이트됩니다. 이 양식을 채우는 데 필요한 인증 자격 증명을 찾을 수 있는 위치에 대한 자세한 내용은 스토리지 액세스 및 권한 섹션을 방문하세요.

이 스크린샷은 Azure Blob 데이터 저장소 만들기 패널을 보여줍니다.

데이터 자산 만들기

데이터 저장소를 만든 후 데이터 세트를 만들어 데이터와 상호 작용합니다. 데이터 세트는 학습과 같은 기계 학습 작업을 위해 천천히 평가되는 사용 가능한 개체로 데이터를 패키징합니다. 데이터 세트에 관한 자세한 내용은 Azure Machine Learning 데이터 세트 만들기에 방문하세요.

두 가지 형식의 데이터 세트인 FileDataset 및 TabularDataset가 있습니다. FileDataset는 단일 또는 여러 파일이나 퍼블릭 URL에 대한 참조를 만듭니다. TabularDataset는 데이터를 테이블 형식으로 표시합니다. 다음에서 TabularDatasets를 만들 수 없습니다.

.csv
.tsv
.parquet
.json 파일 및 SQL 쿼리 결과.

다음 단계는 Azure Machine Learning 스튜디오에서 데이터 세트를 만드는 방법을 설명합니다.

참고 항목

Azure Machine Learning 스튜디오를 통해 만든 데이터 세트는 작업 영역에 자동으로 등록됩니다.

Azure Machine Learning 스튜디오로 이동합니다.
왼쪽 탐색의 자산 아래에서 데이터를 선택합니다. 데이터 자산 탭에서 만들기 선택
데이터 자산에 이름과 설명(선택 사항)을 지정합니다. 그런 다음, 형식에서 파일 또는 테이블 형식의 데이터 세트 형식을 선택합니다.
다음 스크린샷과 같이 데이터 원본 창이 열립니다.

데이터 원본에 대한 다양한 옵션이 있습니다. Azure에 이미 저장된 데이터의 경우 “Azure Storage에서”를 선택합니다. 로컬 드라이브에서 데이터를 업로드하려면 “로컬 파일에서”를 선택합니다. 데이터가 공용 웹 위치에 저장된 경우 "웹 파일에서"를 선택합니다. SQL 데이터베이스 또는 Azure Open Datasets에서 데이터 자산을 만들 수도 있습니다.

파일 선택 단계에서 Azure가 데이터를 저장할 위치와 사용하려는 데이터 파일을 선택합니다.
1. 데이터가 가상 네트워크에 있는 경우 유효성 검사 건너뛰기를 사용합니다. 가상 네트워크 격리 및 프라이버시에 관해 자세히 알아봅니다.
단계에 따라 데이터 자산에 대한 데이터 구문 분석 설정 및 스키마를 설정합니다. 설정은 파일 형식에 따라 미리 채워지고 데이터 자산을 만들기 전에 설정을 추가로 구성할 수 있습니다.
검토 단계에 도달하면 마지막 페이지에서 만들기 선택

데이터 미리 보기 및 프로필

데이터 세트를 만든 후 스튜디오에서 미리 보기 및 프로필을 볼 수 있는지 확인합니다.

Azure Machine Learning 스튜디오에 로그인합니다.
왼쪽 탐색의 자산 아래에서 데이터를 선택합니다.
보려는 데이터 세트 이름을 선택합니다.
탐색 탭을 선택합니다.
미리 보기 탭을 선택합니다.
프로필 탭을 선택합니다.

데이터 집합 전체의 요약 통계를 사용하여 데이터 집합이 ML을 지원하는지 확인할 수 있습니다. 숫자가 아닌 열의 경우 이러한 통계에는 기본 통계(예: 최소, 최대 및 오류 수)만 포함됩니다. 숫자 열은 통계적 모멘트와 예상 분위수를 제공합니다.

Azure Machine Learning 데이터 세트 데이터 프로필에는 다음이 포함됩니다.

참고 항목

관련이 없는 형식의 기능은 빈 항목으로 표시되어 있습니다.

통계	설명
기능	요약된 열 이름
프로필	유추된 형식을 기반으로 하는 인라인 시각화입니다. 문자열, 부울 및 날짜에는 값 개수가 있습니다. 소수점(숫자)에는 근사 히스토그램이 있습니다. 이러한 시각화를 통해 데이터 분포를 빠르게 파악할 수 있음
형식 분포	열 내 유형의 인라인 값 개수입니다. Null은 고유한 유형이므로 이 시각화는 홀수 또는 누락된 값을 감지할 수 있음
Type	유추 열 형식입니다. 가능한 값은 문자열, 부울, 날짜 및 소수점임
Min	열의 최솟값입니다. 형식(예: 부울)에 고유한 순서가 없는 기능은 빈 항목으로 표시됨
최대	열의 최댓값입니다.
Count	열에서 누락되거나 누락되지 않은 항목의 총 수
누락되지 않은 수	열에서 누락되지 않은 항목의 수입니다. 빈 문자열과 오류는 값으로 처리되므로 "누락되지 않은 수"에 영향을 주지 않습니다.
분위수	데이터 분포를 파악하기 위한 각 분위수의 근사값
평균	열의 산술 평균 또는 평균
표준 편차	이 열의 데이터에 대한 분산 또는 편차를 측정한 값
분산	이 열의 데이터가 평균 값에서 얼마나 분산되는지 측정
왜곡도	일반 분포에서 이 열 데이터의 차이를 측정
첨도	일반 분포와 비교하여 이 열 데이터의 "꼬리"의 정도를 측정

스토리지 액세스 및 권한

Azure Storage 서비스에 안전하게 연결하려면 Azure Machine Learning에서 해당하는 데이터 스토리지에 액세스할 권한이 있어야 합니다. 이 액세스 권한은 데이터 저장소를 등록하는 데 사용되는 인증 자격 증명에 따라 다릅니다.

가상 네트워크

데이터 스토리지 계정이 가상 네트워크에 있는 경우 Azure Machine Learning이 데이터에 액세스할 수 있도록 하려면 추가 구성 단계가 필요합니다. 데이터 저장소를 만들고 등록할 때 적절한 구성 단계가 적용되는지 확인하려면 가상 네트워크에서 Azure Machine Learning Studio 사용을 참조하세요.

액세스 유효성 검사

Warning

스토리지 계정에 대한 테넌트 간 액세스는 지원되지 않습니다. 시나리오에 테넌트 간 액세스가 필요한 경우 amldatasupport@microsoft.com에 있는 Azure Machine Learning 데이터 지원 팀 별칭에 연락하여 사용자 지정 코드 솔루션에 대한 지원을 받으세요.

초기 데이터 저장소 생성 및 등록 프로세스에서 Azure Machine Learning은 기본 스토리지 서비스가 있고 사용자가 제공한 보안 주체(사용자 이름, 서비스 주체 또는 SAS 토큰)가 지정된 스토리지에 대한 액세스 권한이 있는지 자동으로 유효성을 검사합니다.

데이터 저장소가 생성된 후 이 유효성 검사는 기본 스토리지 컨테이너에 액세스해야 하는 메서드에 대해서만 수행됩니다. 데이터 저장소 개체를 검색할 때마다 유효성 검사가 수행되지 않습니다. 예를 들어 데이터 저장소에서 파일을 다운로드할 때 유효성 검사가 수행됩니다. 그러나 기본 데이터 저장소를 변경하려는 경우에는 유효성 검사가 수행되지 않습니다.

기본 스토리지 서비스에 대한 액세스를 인증하려면 만들려는 데이터 저장소 유형에 따라 계정 키, SAS(공유 액세스 서명) 토큰 또는 서비스 주체를 제공하면 됩니다. 스토리지 유형 행렬에는 각 데이터 저장소 유형에 해당하는 지원되는 인증 유형이 나열됩니다.

Azure Portal에서 계정 키, SAS 토큰 및 서비스 주체 정보를 찾을 수 있습니다.

인증을 위한 계정 키를 가져오려면 왼쪽 창에서 스토리지 계정을 선택하고 등록할 스토리지 계정 선택
- 개요 페이지에서는 계정 이름, 컨테이너, 파일 공유 이름 등의 정보를 제공합니다.
- 왼쪽 탐색에서 보안 + 네트워킹 노드 확장
- 액세스 키를 선택합니다.
- 사용 가능한 키 값은 계정 키 값으로 사용됨
인증을 위해 SAS 토큰을 가져오려면 왼쪽 창에서 스토리지 계정을 선택하고 원하는 스토리지 계정 선택
- Access 키 값을 가져오려면 왼쪽 탐색에서 보안 + 네트워킹 노드 확장
- 공유 액세스 서명 선택
- SAS 값을 생성하는 프로세스 완료
서비스 주체를 인증에 사용하려면 앱 등록으로 이동하고 사용하려는 앱을 선택합니다.
- 해당하는 개요 페이지에는 테넌트 ID, 클라이언트 ID 등의 필요한 정보가 포함됩니다.

Important

Azure Storage 계정(계정 키 또는 SAS 토큰)의 액세스 키를 변경해야 하는 경우 새 자격 증명을 작업 영역 및 이 작업 영역에 연결된 데이터 저장소와 동기화해야 합니다. 자세한 내용은 업데이트된 자격 증명 동기화하기에 방문하세요.
데이터 저장소의 등록을 취소하고 같은 이름으로 다시 등록할 때, 다시 등록이 실패하는 경우. 작업 영역의 Azure Key Vault에서 일시 삭제가 사용되지 않는 것일 수 있습니다. 일시 삭제는 작업 영역에서 만든 키 자격 증명 모음 인스턴스에 대해 기본적으로 사용되지만, 기존 키 자격 증명 모음을 사용하거나 2020년 10월 이전에 작업 영역을 만든 경우에는 일시 삭제가 사용되지 않을 수 있습니다. 일시 삭제를 사용하도록 설정하는 방법에 대한 자세한 내용은 기존 키 자격 증명 모음에 대해 일시 삭제 설정을 참조하세요.

사용 권한

Azure Blob 컨테이너 및 Azure Data Lake Gen 2 스토리지의 경우, 인증 자격 증명에 Storage Blob 데이터 읽기 권한자 액세스 권한이 있는지 확인합니다. 스토리지 Blob 데이터 읽기 권한자에 대해 자세히 알아보세요. 기본적으로 계정 SAS 토큰에는 권한이 없습니다.

데이터 읽기 액세스의 경우 인증 자격 증명에는 컨테이너 및 개체에 대한 최소한의 나열 및 읽기 권한이 있어야 합니다.
데이터 쓰기 액세스의 경우 쓰기 및 추가 권한도 필요합니다.

데이터 세트로 학습

ML 모델 학습을 위한 기계 학습 실험에서 데이터 세트를 사용합니다. 데이터 세트를 사용하여 학습시키는 방법을 알아보세요.

다음 단계

TabularDataset 및 자동화된 기계 학습을 사용한 학습의 단계별 예제
모델 학습
추가 데이터 세트 학습 예제는 샘플 Notebook 참조