Azure Machine Learning의 데이터 v1
적용 대상: Azure CLI ml 확장 v1
적용 대상: Python SDK azureml v1
Azure Machine Learning을 사용하면 클라우드에서 데이터에 쉽게 연결할 수 있습니다. 스토리지 유형에 따라 코드를 작성할 필요 없이 데이터에 안전하게 액세스하고 작업할 수 있도록 기본 스토리지 서비스에 대한 추상화 계층을 제공합니다. Azure Machine Learning은 다음과 같은 특징과 기능을 제공합니다.
- Pandas 및 Spark DataFrames와의 상호 운용성
- 데이터 계보 버전 관리 및 추적
- 데이터 레이블 지정
- 데이터 드리프트 모니터링
데이터 워크플로
클라우드 기반 스토리지 솔루션에서 데이터를 사용하려면 이 데이터 배달 워크플로를 사용하는 것이 좋습니다. 이 워크플로는 Azure Storage 계정 및 Azure 클라우드 기반 스토리지 서비스에 데이터가 있다고 가정합니다.
Azure Storage에 연결 정보를 저장하는 Azure Machine Learning 데이터 스토리지를 만듭니다.
해당 데이터 스토리지에서 기본 스토리지에 있는 특정 파일을 가리키도록 Azure Machine Learning 데이터 세트를 만듭니다.
기계 학습 실험에서 해당 데이터 세트를 사용하려면 다음 중 하나를 수행합니다.
모델 학습을 위해 실험의 컴퓨팅 대상에 데이터 세트 탑재
OR
Azure Machine Learning 솔루션(예: 자동화된 Machine Learning 실험 실행, 기계 학습 파이프라인 또는 Azure Machine Learning 디자이너)에서 데이터 세트를 직접 사용
데이터 드리프트를 검색하기 위해 모델 출력 데이터 세트에 대한 데이터 세트 모니터 만들기
검색된 데이터 드리프트의 경우 입력 데이터 세트를 업데이트하고 그에 따라 모델을 다시 학습
이 스크린샷은 권장되는 워크플로를 보여줍니다.
데이터 스토리지를 사용하여 스토리지에 연결
Azure Machine Learning 데이터 저장소는 Azure에서 데이터 스토리지 연결 정보를 안전하게 호스트하므로 스크립트에 해당 정보를 배치할 필요가 없습니다. 기본 스토리지 서비스에서 스토리지 계정과 데이터 액세스에 연결하는 방법에 관한 자세한 내용은 데이터 저장소 등록 및 만들기를 방문하세요.
이러한 지원되는 Azure 클라우드 기반 스토리지 서비스는 데이터 저장소로 등록할 수 있습니다.
- Azure Blob 컨테이너
- Azure 파일 공유
- Azure Data Lake
- Azure Data Lake Gen2
- Azure SQL Database
- Azure Database for PostgreSQL
- Databricks 파일 시스템
- Azure Database for MySQL
팁
자격 증명 기반 인증을 사용하여 데이터 저장소를 만들어 스토리지 서비스(예: 서비스 주체 또는 SAS(공유 액세스 서명) 토큰)에 액세스할 수 있습니다. 작업 영역에 대한 읽기 권한자 액세스 권한이 있는 사용자는 이러한 자격 증명에 액세스할 수 있습니다.
이 부분이 걱정된다면 ID 기반 데이터 액세스를 사용하는 데이터 저장소 만들기를 방문하여 스토리지 서비스에 대한 연결에 관한 자세한 내용을 알아보세요.
데이터 세트와 스토리지의 참조 데이터
Azure Machine Learning 데이터 세트는 데이터의 복사본이 아닙니다. 데이터 세트 만들기는 자체적으로 해당 메타데이터의 복사본과 함께 스토리지 서비스의 데이터에 대한 참조를 만듭니다.
데이터 세트는 지연 평가되고 데이터는 기존 위치에 남아 있기 때문에
- 추가 스토리지 비용이 발생하지 않습니다.
- 원래 데이터 원본에 의도하지 않은 변경이 발생할 위험을 감수하지 마세요.
- ML 워크플로 성능 속도를 향상하세요.
스토리지의 데이터와 상호 작용하려면 데이터를 기계 학습 작업에 사용할 수 있는 개체로 패키징하는 데이터 세트를 만듭니다. 복잡한 데이터 수집 과정 없이 여러 실험에서 데이터를 공유하고 재사용하려면 데이터 세트를 작업 영역에 등록하세요.
로컬 파일, 공용 URL, Azure Open Datasets 또는 데이터 저장소를 통해 Azure Storage 서비스에서 데이터 세트를 만들 수 있습니다.
데이터 세트에는 두 가지 유형이 있습니다.
FileDataset는 데이터 스토리지 또는 퍼블릭 URL에 있는 하나 또는 여러 개의 파일을 참조합니다. 데이터가 이미 정리되어 학습 실험이 준비된 경우 FileDatasets에서 참조하는 파일을 컴퓨팅 대상에 다운로드하거나 탑재할 수 있습니다.
TabularDataset는 제공된 파일 또는 파일 목록을 구문 분석하여 데이터를 테이블 형식으로 나타냅니다. TabularDataSet를 Pandas 또는 Spark DataFrame에 로드하여 추가 조작 및 정리할 수 있습니다. TabularDatasets를 만들 수 있는 데이터 형식의 전체 목록은 TabularDatasetFactory 클래스를 참조하세요.
다음 리소스는 데이터 세트 기능에 관한 자세한 정보를 제공합니다.
- 데이터 세트 계보 버전 및 추적.
- 데이터 드리프트 감지에 도움이 되도록 데이터 세트 모니터링
데이터 작업
데이터 세트를 사용하면 Azure Machine Learning 기능과의 원활한 통합을 통해 기계 학습 작업을 수행할 수 있습니다.
- 데이터 레이블 지정 프로젝트 만들기
- 기계 학습 모델 교육하기
- 기계 학습 파이프라인에서 일괄 처리 유추를 사용하여 채점용 데이터 세트에 액세스
- 데이터 드리프트 감지를 위한 데이터 세트 모니터링 설정
데이터 레이블 지정 프로젝트로 데이터에 레이블을 지정
기계 학습 프로젝트에서 대량의 데이터에 레이블을 지정하는 작업은 쉽지 않을 수 있습니다. 이미지 분류 또는 개체 감지와 같은 Computer Vision 구성 요소를 포함하는 프로젝트에는 종종 수천 개의 이미지와 해당 레이블이 필요합니다.
Azure Machine Learning은 레이블 지정 프로젝트를 만들고, 관리하고, 모니터링할 수 있는 중앙 위치를 제공합니다. 레이블 지정 프로젝트를 사용하면 데이터, 레이블 및 팀 구성원을 조정하여 레이블 지정 작업을 더 효율적으로 관리할 수 있습니다. 현재 지원되는 작업에는 이미지 분류(다중 레이블 또는 다중 클래스)와 경계 상자를 사용하는 개체 식별이 포함됩니다.
이미지 레이블 지정 프로젝트 또는 텍스트 레이블 지정 프로젝트를 만들고 기계 학습 실험에서 사용할 데이터 세트를 출력합니다.
데이터 드리프트로 모델 성능 모니터링
기계 학습의 컨텍스트에서 데이터 드리프트에는 모델 성능 저하로 이어지는 모델 입력 데이터의 변경이 포함됩니다. 이는 시간이 지남에 따라 모델 정확도가 저하되는 가장 큰 이유 중 하나로, 데이터 드리프트 모니터링을 사용하면 모델 성능 문제를 감지할 수 있습니다.
자세한 내용을 확인하려면 데이터 세트 모니터 만들기를 방문하여 데이터 세트의 새 데이터에 대한 데이터 드리프트를 감지하고 경고하는 방법을 알아보세요.