다음을 통해 공유


HortonWorks Data Platform의 Docker 배포를 사용하여 Azure Lab Services에서 빅 데이터 분석에 대한 랩 설정

Important

Azure Lab Services는 2027년 6월 28일에 사용 중지됩니다. 자세한 내용은 사용 중지 가이드를 참조하세요.

참고 항목

이 문서에서는 랩 계정을 대체한 랩 계획에서 사용할 수 있는 기능을 참조합니다.

이 문서에서는 빅 데이터 분석 클래스를 교육하기 위한 랩을 설정하는 방법을 보여 줍니다. 빅 데이터 분석 수업에서는 사용자에게 대량의 데이터를 처리하는 방법을 설명합니다. 또한 데이터 인사이트를 도출하기 위해 기계 및 통계 학습 알고리즘을 적용하는 방법을 설명합니다. 핵심 목표는 Apache Hadoop의 오픈 소스 소프트웨어 패키지와 같은 데이터 분석 도구를 사용하는 방법을 배우는 것입니다. 소프트웨어 패키지는 빅 데이터를 저장, 관리 및 처리하기 위한 도구를 제공합니다.

이 랩에서 랩 사용자는 HDP(Hortonworks Data Platform)라는, Cloudera에서 제공하는 인기 있는 상업용 버전의 Hadoop을 사용합니다. 특히 랩 사용자들은 간소화되고 사용하기 쉬운 플랫폼 버전인 HDP Sandbox 3.0.1을 사용합니다. 또한 HDP Sandbox 3.0.1은 무료이며 학습 및 실험을 위한 것입니다. 이 클래스는 HDP Sandbox가 배포된 Windows 또는 Linux VM(가상 머신)을 사용할 수 있습니다. 이 문서에서는 Windows를 사용하는 방법을 보여 줍니다.

또 다른 흥미로운 측면은 Docker 컨테이너를 사용하여 랩 VM에 HDP Sandbox를 배포한다는 것입니다. 각 Docker 컨테이너는 내부에서 실행할 소프트웨어 애플리케이션의 자체 격리된 환경을 제공합니다. 개념적으로 Docker 컨테이너는 중첩된 VM과 비슷하며 Docker Hub에서 제공하는 컨테이너 이미지에 따라 매우 다양한 소프트웨어 애플리케이션을 쉽게 배포하고 실행하는 데 사용될 수 있습니다. HDP Sandbox의 Cloudera 배포 스크립트는 자동으로 Docker Hub에서 HDP Sandbox 3.0.1 Docker 이미지를 끌어오고 두 개의 Docker 컨테이너를 실행합니다.

  • sandbox-hdp
  • sandbox-proxy

필수 조건

이 랩을 설정하려면 Azure 구독에 대한 액세스 권한이 필요합니다. 조직의 관리자와 논의하여 기존 Azure 구독에 대한 액세스 권한을 가져올 수 있는지 확인합니다. Azure 구독이 없는 경우 시작하기 전에 체험 계정을 만듭니다.

랩 구성

랩 계획 설정

Azure 구독이 있으면 Azure Lab Services에서 랩 플랜을 만들 수 있습니다. 새 랩 계획 만들기에 대한 자세한 내용은 빠른 시작: 랩을 만들 리소스 설정을 참조하세요. 기존 랩 계획을 사용할 수도 있습니다.

이 랩에서는 Windows 10 Pro Azure Marketplace 이미지를 기본 VM 이미지로 사용합니다. 먼저 랩 계획에서 이 이미지를 사용하도록 설정해야 합니다. 그러면 랩 작성자가 랩의 기본 이미지로 이미지를 선택할 수 있습니다.

랩 작성자가 사용할 수 있는 이러한 Azure Marketplace 이미지를 사용하도록 설정하려면 다음 단계를 수행합니다. Windows 10 Azure Marketplace 이미지 중 하나를 선택합니다.

랩 설정

랩 계획에 대한 랩을 만듭니다. 랩을 만드는 방법에 대한 지침은 자습서: 랩 설정을 참조하세요. 랩을 만들 때 다음 설정을 사용합니다.

랩 설정 값/지침
가상 머신 크기 중간(중첩된 가상화). 이 VM 크기는 관계형 데이터베이스, 메모리 내 캐시 및 분석에 가장 적합합니다. 이 크기는 중첩된 가상화도 지원합니다.
가상 머신 이미지 Windows 10 Pro

참고 항목

Docker를 사용하는 HDP 샌드박스에는 중첩된 가상화 및 10GB 이상의 RAM이 있는 Windows Hyper-V가 필요하기 때문에 중간(중첩된 가상화) VM 크기를 사용합니다.

템플릿 머신 구성

템플릿 머신을 설정하려면 다음을 수행합니다.

  1. Docker 설치
  2. HDP Sandbox 배포
  3. PowerShell 및 Windows 작업 스케줄러를 사용하여 자동으로 Docker 컨테이너 시작

Docker 설치

이 섹션의 단계는 Docker 컨테이너를 사용하여 배포하기 위한 Cloudera 지침을 기반으로 합니다.

Docker 컨테이너를 사용하려면 먼저 템플릿 VM에 Docker Desktop을 설치해야 합니다.

  1. 필수 조건 섹션의 단계에 따라 Windows용 Docker를 설치합니다.

    Important

    Linux 컨테이너 대신 Windows 컨테이너 사용 구성 옵션이 선택 취소되어 있는지 확인합니다.

  2. Windows 컨테이너 및 Hyper-V 기능이 켜져 있는지 확인합니다.

    Windows 기능 설정 또는 해제

  3. Windows용 메모리 섹션의 단계에 따라 Docker 메모리 구성을 구성합니다.

    Warning

    Docker를 설치할 때 실수로 Linux 컨테이너 대신 Windows 컨테이너 사용 옵션을 선택하면 메모리 구성 설정이 표시되지 않습니다. 이 문제를 해결하기 위해 Windows 시스템 트레이에서 Docker 아이콘을 클릭하여 Linux 컨테이너 사용으로 전환할 수 있습니다. Docker Desktop 메뉴가 열리면 Linux 컨테이너로 전환을 선택합니다.

HDP Sandbox 배포

다음으로 HDP Sandbox를 배포한 다음, 브라우저를 사용하여 HDP Sandbox에 액세스합니다.

  1. 가이드의 필수 조건 섹션에 나열된 대로 Git Bash를 설치했는지 확인합니다. 다음 단계를 완료하는 것이 좋습니다.

  2. Docker에 대한 Cloudera 배포 및 설치 가이드를 사용하여 다음 섹션의 단계를 완료합니다.

    • HDP Sandbox 배포
    • HDP Sandbox 확인

    Warning

    HDP에 대한 최신 .zip 파일을 다운로드하는 경우 공백이 포함된 디렉터리 경로에 .zip 파일을 저장하지 않아야 합니다.

    참고 항목

    배포하는 동안 드라이브가 공유되지 않았음이라는 예외가 표시되면 HDP의 Linux 컨테이너가 로컬 Windows 파일에 액세스할 수 있도록 Docker를 사용하여 C 드라이브를 공유해야 합니다. 이 문제를 해결하려면 Windows 시스템 트레이에서 Docker 아이콘을 클릭하여 Docker Desktop 메뉴를 열고 설정을 선택합니다. Docker 설정 대화 상자가 열리면 리소스 > 파일 공유를 선택하고 C 드라이브를 선택합니다. 그런 다음, HDP Sandbox를 배포하는 단계를 반복할 수 있습니다.

  3. HDP Sandbox용 Docker 컨테이너가 배포되고 실행되면 브라우저를 시작하여 환경에 액세스할 수 있습니다. Sandbox 시작 페이지를 열고 HDP 대시보드를 시작하기 위한 Cloudera의 지침을 따릅니다.

    참고 항목

    이 지침에서는 먼저 샌드박스 환경의 로컬 IP 주소를 템플릿 VM의 호스트 파일에 있는 sandbox-hdp.hortonworks.com에 매핑한 것으로 가정합니다. 이 매핑을 수행하지 않은 경우에는 http://localhost:8080로 이동하여 Sandbox 시작 페이지에 액세스할 수 있습니다.

랩 사용자들이 로그인할 때 자동으로 Docker 컨테이너 시작

랩 사용자에게 사용하기 쉬운 환경을 제공하기 위해 자동으로 다음을 수행하는 사용하는 PowerShell 스크립트를 만듭니다.

  1. 랩 사용자는 랩 VM을 시작하고 여기에 연결할 때 HDP Sandbox Docker 컨테이너를 시작합니다.
  2. 브라우저를 시작하고 Sandbox 시작 페이지로 이동합니다.

랩 사용자가 VM에 로그인할 때는 이 스크립트를 자동으로 실행하도록 Windows 작업 스케줄러를 사용합니다. 작업 스케줄러를 설정하려면 빅 데이터 분석 스크립팅 단계를 따릅니다.

비용 추정

이 섹션에서는 25명의 랩 사용자에 대해 이 클래스를 실행하기 위한 예상 비용을 제공합니다. 예약된 클래스 시간은 20시간입니다. 예약된 클래스 시간 외에도 숙제 또는 과제에 사용하도록 각 사용자에게 10시간이 할당됩니다. 선택한 가상 머신 크기는 중형(중첩된 시각화)로, 랩 단위는 55개입니다.

  • 랩 사용자 25명 ×(예정된 20시간 + 할당된 10시간) × 55 랩 단위

Important

예상 비용은 예시용으로만 사용됩니다. 최신 가격 책정 정보는 Azure Lab Services 가격 책정을 참조하세요.

결론

이 문서에서는 빅 데이터 분석 클래스의 랩을 만드는 데 필요한 단계를 안내했습니다. 빅 데이터 분석 클래스는 Docker와 함께 배포된 Hortonworks Data Platform을 사용합니다. 이 클래스 형식의 설정은 비슷한 데이터 분석 클래스에 사용될 수 있습니다. 이 설정은 배포에 Docker를 사용하는 다른 형식의 클래스에도 적용될 수 있습니다.

다음 단계

이제 템플릿 이미지를 랩에 게시할 수 있습니다. 자세한 내용은 템플릿 VM 게시를 참조하세요.

랩을 설정할 때 다음 문서를 참조하세요.