빠른 시작: Synapse Studio를 사용하여 서버리스 Apache Spark 풀 만들기

Azure Synapse Analytics는 데이터를 수집, 변환, 모델링, 분석 및 제공하는 데 도움이 되는 다양한 분석 엔진을 제공합니다. Apache Spark 풀은 오픈 소스 빅 데이터 컴퓨팅 기능을 제공합니다. Synapse 작업 영역에서 Apache Spark 풀을 만든 후 데이터를 로드, 모델링, 처리 및 처리하여 인사이트를 얻을 수 있습니다.

이 빠른 시작에서는 Synapse Studio를 사용하여 Synapse 작업 영역에 Apache Spark 풀을 만드는 단계를 설명합니다.

Important

Spark 인스턴스에 대한 청구는 사용 여부에 관계없이 분 단위로 비례 배분됩니다. Spark 인스턴스를 사용한 후 꼭 인스턴스를 종료하거나 짧은 시간 제한을 설정해야 합니다. 자세한 내용은 이 문서의 리소스 정리 섹션을 참조하세요.

Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다.

필수 조건

Azure 포털

Azure 포털

  1. 검색 창에 서비스 이름(또는 리소스 이름)을 직접 입력하여 Apache Spark 풀이 생성될 때 Synapse 작업 영역으로 이동합니다. Screenshot from the Azure portal of the search bar with Synapse workspaces typed in.

  2. 작업 영역 목록에서 열려는 작업 영역의 이름(또는 이름의 일부)을 입력합니다. 이 예제에서는 contosoanalytics라는 작업 영역을 사용합니다. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Synapse Studio 시작

작업 영역 개요에서 작업 영역 웹 URL을 선택하여 Synapse Studio를 엽니다.

Screenshot from the Azure portal of a Synapse workspace overview with Launch Synapse Studio highlighted.

Synapse Studio에서 Apache Spark 풀 만들기

Important

Apache Spark 2.4용 Azure Synapse 런타임은 더 이상 사용되지 않으며 2023년 9월 이후로 공식적으로 지원되지 않습니다. Spark 3.1Spark 3.2도 지원 종료가 발표된 경우 고객이 Spark 3.3으로 마이그레이션하는 것이 좋습니다.

  1. Synapse Studio 홈 페이지의 왼쪽 탐색 영역에서 관리 아이콘을 선택하여 관리 허브로 이동합니다. Screenshot from the Azure portal of the Synapse Studio home page with Management Hub section highlighted.

  2. 관리 허브에서 Apache Spark 풀 섹션으로 이동하여 작업 영역에서 사용할 수 있는 Apache Spark 풀의 현재 목록을 확인합니다. Screenshot from the Azure portal of the Synapse Studio management hub with Apache Spark pools navigation selected.

  3. + 새로 만들기를 선택하면 새 Apache Spark 풀 만들기 마법사가 나타납니다.

  4. 기본 사항 탭에서 다음 정보를 입력합니다.

    설정 제안 값 설명
    Apache Spark 풀 이름 다음과 같은 유효한 풀 이름 contosospark Apache Spark 풀이 사용할 이름입니다.
    노드 크기 작음(4 vCPU/32GB) 이 빠른 시작에서는 비용을 줄이기 위해 이 값을 가장 작은 크기로 설정합니다.
    Autoscale 사용 안 함 이 빠른 시작에 자동 크기 조정이 필요하지 않습니다.
    노드 수 8 이 빠른 시작에 대한 비용을 제한하려면 작은 크기를 사용합니다.
    동적으로 실행기를 할당 사용 안 함 이 설정은 Spark 애플리케이션 실행기 할당을 위해 Spark 구성의 동적 할당 속성에 매핑됩니다. 이 빠른 시작에 자동 크기 조정이 필요하지 않습니다.

    Screenshot from the Azure portal of the Basics for Synapse Studio new Apache Spark pool.

    Important

    Apache Spark 풀에서 사용할 수 있는 이름에는 특정 제한 사항이 있습니다. 이름은 문자 또는 숫자만 포함해야 하고, 15자 이하여야 하고, 문자로 시작하고 예약어를 포함하지 않아야 하고, 작업 영역에서 고유해야 합니다.

  5. 다음 탭 의 추가 설정에서 모든 설정을 기본값으로 둡니다.

  6. 태그를 선택합니다. Azure 태그를 사용하는 것이 좋습니다. 예를 들어 리소스를 만든 사람을 식별하는 "소유자" 또는 "CreatedBy" 태그와 이 리소스가 프로덕션, 개발 등에 있는지 여부를 식별하는 "환경" 태그가 있습니다. 자세한 내용은 Azure 리소스에 대한 명명 및 태그 지정 전략 개발을 참조 하세요. 준비가 되면 검토 + 만들기를 선택합니다.

  7. 검토 + 만들기 탭에서 이전에 입력한 내용에 따라 세부 정보가 올바른지 확인하고 만들기를 누릅니다.

    Screenshot from the Azure portal of the Create Synapse Studio new Apache Spark pool.

  8. Apache Spark 풀이 프로비저닝 프로세스를 시작합니다.

  9. 프로비저닝이 완료되면 새 Apache Spark 풀이 목록에 표시됩니다.

    Screenshot from the Azure portal of the Synapse Studio new Apache Spark pool list.

Synapse Studio를 사용하여 Apache Spark 풀 리소스 정리

다음 단계에서는 Synapse Studio를 사용하여 작업 영역에서 Apache Spark 풀을 삭제합니다.

Warning

Spark 풀을 삭제하면 작업 영역에서 분석 엔진이 제거됩니다. 그러면 더 이상 풀에 연결할 수 없으며, 이 Spark 풀을 사용하는 모든 쿼리, 파이프라인 및 Notebook은 더 이상 작동하지 않습니다.

Apache Spark 풀을 삭제하려면 다음 단계를 수행합니다.

  1. Synapse Studio에서 관리 허브의 Apache Spark 풀로 이동합니다.

  2. 삭제할 Apache 풀(이 경우 contosospark) 옆에 있는 줄임표를 선택하여 Apache Spark 풀에 대한 명령을 표시합니다.

    Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.

  3. 삭제를 선택합니다.

  4. 삭제를 확인하고 삭제 단추를 누릅니다.

  5. 프로세스가 성공적으로 완료되면 Apache Spark 풀이 작업 영역 리소스에 더 이상 나열되지 않습니다.