빠른 시작: Azure Machine Learning에서 Apache Spark를 사용하는 대화형 데이터 랭글링

아티클
04/19/2024

대화형 Azure Machine Learning Notebook 데이터 랭글링을 처리하기 위해 Azure Synapse Analytics와 Azure Machine Learning을 통합하여 Apache Spark 프레임워크에 쉽게 액세스할 수 있습니다. 이 액세스를 통해 Azure Machine Learning Notebook 대화형 데이터 랭글링을 수행할 수 있습니다.

이 빠른 시작 가이드에서는 Azure Machine Learning 서버리스 Spark 컴퓨팅, ADLS(Azure Data Lake Storage) Gen 2 스토리지 계정 및 사용자 ID 통과를 사용하여 대화형 데이터 랭글링을 수행하는 방법을 알아봅니다.

필수 조건

Azure 구독. Azure 구독이 아직 없는 경우 시작하기 전에 무료 계정을 만듭니다.
Azure Machine Learning 작업 영역 작업 영역 리소스 만들기를 참조하세요.
ADLS(Azure Data Lake Storage) Gen 2 스토리지 계정. ADLS(Azure Data Lake Storage) Gen 2 스토리지 계정 만들기를 참조하세요.

Azure Key Vault에서 Azure Storage 계정 자격 증명을 비밀로 저장

Azure Portal 사용자 인터페이스를 사용하여 Azure Key Vault에서 Azure Storage 계정 자격 증명을 비밀로 저장하려면:

Azure Portal에서 Azure Key Vault로 이동합니다.
왼쪽 패널에서 비밀을 선택합니다.
+ 생성/가져오기를 선택합니다.
비밀 만들기 화면에서 만들려는 비밀의 이름을 입력합니다.
이 이미지에서 보여 준 것과 같이 Azure Portal에서 Azure Blob Storage 계정으로 이동합니다.
Azure Blob Storage 계정 페이지 왼쪽 패널에서 액세스 키를 선택합니다.
키 1 옆에 있는 표시를 선택한 다음, 클립보드에 복사를 선택하여 스토리지 계정 액세스 키를 가져옵니다.
참고 항목

Azure Key Vault 비밀을 만드는 동안
- Azure Blob Storage 컨테이너 SAS(공유 액세스 서명) 토큰
- ADLS(Azure Data Lake Storage) Gen 2 스토리지 계정 서비스 주체 자격 증명
  - 테넌트 ID
  - 클라이언트 ID 및
  - secret
해당 사용자 인터페이스에서 복사할 적절한 옵션을 선택합니다.
비밀 만들기 화면으로 다시 이동합니다.
비밀 값 텍스트 상자에 이전 단계에서 클립보드에 복사된 Azure Storage 계정에 대한 액세스 키 자격 증명을 입력합니다.
만들기를 선택합니다.

팁

Python용 Azure CLI 및 Azure Key Vault 비밀 클라이언트 라이브러리에서도 Azure Key Vault 비밀을 만들 수 있습니다.

Azure Storage 계정에서 역할 할당 추가

대화형 데이터 랭글링을 시작하기 전에 입력/출력 데이터 경로에 액세스할 수 있는지 확인해야 합니다. 첫째,

Notebooks 세션 로그인 사용자의 사용자 ID

또는
서비스 주체의 경우

로그인한 사용자의 사용자 ID에 읽기 권한자 및 Storage Blob 데이터 읽기 권한자 역할을 할당합니다. 그러나 특정 시나리오에서는 랭글링된 데이터를 Azure Storage 계정에 다시 쓸 수 있습니다. 읽기 권한자 및 Storage Blob 데이터 읽기 권한자 역할은 사용자 ID 또는 서비스 주체에 대한 읽기 전용 액세스를 제공합니다. 읽기 및 쓰기 액세스를 사용하도록 설정하려면 기여자 및 Storage Blob 데이터 기여자 역할을 사용자 ID 또는 서비스 주체에 할당합니다. 사용자 ID에 적절한 역할을 할당하려면 다음을 수행합니다.

Microsoft Azure Portal을 엽니다.
스토리지 계정 서비스를 검색하여 선택합니다.
스토리지 계정 페이지의 목록에서 ADLS(Azure Data Lake Storage) Gen 2 스토리지 계정을 선택합니다. 스토리지 계정 개요를 보여 주는 페이지가 열립니다.
왼쪽 패널에서 액세스 제어(IAM)를 선택합니다.
역할 할당 추가를 선택합니다.
Storage Blob 데이터 기여자 역할을 찾아 선택합니다.
다음을 선택합니다.
사용자, 그룹 또는 서비스 주체를 선택합니다.
+ 멤버 선택을 선택합니다.
선택 아래에서 사용자 ID를 검색합니다.
목록에서 사용자 ID를 선택하면 선택한 멤버 아래에 표시됩니다.
해당하는 사용자 ID를 선택합니다.
다음을 선택합니다.
검토 + 할당을 선택합니다.
기여자 역할 할당에서 2~13단계를 반복합니다.

사용자 ID에 적절한 역할이 할당되면 Azure Storage 계정의 데이터에 액세스할 수 있게 됩니다.

참고 항목

연결된 Synapse Spark 풀이 Azure Synapse 작업 영역에서 연결된 관리되는 가상 네트워크가 있는 Synapse Spark 풀을 가리키는 경우 스토리지 계정에 관리 프라이빗 엔드포인트를 구성하여 데이터 액세스를 보장해야 합니다.

Spark 작업에 대한 리소스 액세스 보장

Spark 작업은 관리 ID 또는 사용자 ID 통과를 사용하여 데이터와 기타 리소스에 액세스할 수 있습니다. 다음 표에는 Azure Machine Learning 서버리스 Spark 컴퓨팅 및 연결된 Synapse Spark 풀을 사용하는 동안 리소스 액세스에 대한 다양한 메커니즘이 요약되어 있습니다.

Spark 풀	지원되는 ID	기본 ID
서버리스 Spark 컴퓨팅	작업 영역에 연결된 사용자 ID, 사용자 할당 관리 ID	사용자 ID
연결된 Synapse Spark 풀	사용자 ID, 연결된 Synapse Spark 풀에 연결된 사용자 할당 관리 ID, 연결된 Synapse Spark 풀의 시스템 할당 관리 ID	연결된 Synapse Spark 풀의 시스템 할당 관리 ID

CLI 또는 SDK 코드가 관리 ID를 사용하는 옵션을 정의하는 경우 Azure Machine Learning 서버리스 Spark 컴퓨팅은 작업 영역에 연결된 사용자 할당 관리 ID를 사용합니다. Azure Machine Learning CLI v2 또는 ARMClient를 사용하여 기존 Azure Machine Learning 작업 영역에 사용자 할당 관리 ID를 연결할 수 있습니다.

Share via

빠른 시작: Azure Machine Learning에서 Apache Spark를 사용하는 대화형 데이터 랭글링

필수 조건

Azure Key Vault에서 Azure Storage 계정 자격 증명을 비밀로 저장

Azure Storage 계정에서 역할 할당 추가

Spark 작업에 대한 리소스 액세스 보장

다음 단계

추가 리소스