다음을 통해 공유


자습서: Visual Studio Code용 Databricks 확장을 사용하여 클러스터 및 작업에서 Python 실행

이 자습서에서는 Visual Studio Code용 Databricks 확장을 설정한 다음, Azure Databricks 클러스터 및 원격 작업 영역에서 Azure Databricks 작업으로 Python을 실행하는 방법에 대해 설명합니다. Visual Studio Code용 Databricks 확장이란?을 참조하세요.

요구 사항

이 자습서에서는 다음이 필요합니다.

  • Visual Studio Code용 Databricks 확장을 설치했습니다. Visual Studio Code용 Databricks 확장 설치를 참조하세요.
  • 사용할 원격 Azure Databricks 클러스터가 있습니다. 클러스터의 이름을 기록해 둡다. 사용 가능한 클러스터를 보려면 Azure Databricks 작업 영역 사이드바에서 컴퓨팅을 클릭합니다. 컴퓨팅을 참조하세요.

1단계: 새 Databricks 프로젝트 만들기

이 단계에서는 새 Databricks 프로젝트를 만들고 원격 Azure Databricks 작업 영역과의 연결을 구성합니다.

  1. Visual Studio Code를 시작하고 파일 > 열기 폴더를 클릭하고 로컬 개발 컴퓨터에서 빈 폴더를 엽니다.
  2. 사이드바에서 Databricks 로고 아이콘을 클릭합니다. 그러면 Databricks 확장이 열립니다.
  3. 구성 보기에서 Databricks 프로젝트로 마이그레이션을 클릭합니다.
  4. Databricks 작업 영역을 구성하는 명령 팔레트가 열립니다. Databricks 호스트의 경우 작업 영역별 URL을 입력하거나 선택합니다. 예를 들면 다음과 같습니다https://adb-1234567890123456.7.azuredatabricks.net.
  5. 프로젝트에 대한 인증 프로필을 선택합니다. Visual Studio Code용 Databricks 확장에 대한 인증 설정을 참조하세요.

2단계: Databricks 확장에 클러스터 정보 추가 및 클러스터 시작

  1. 구성 보기가 이미 열려 있는 상태에서 클러스터 선택을 클릭하거나 기어(클러스터 구성) 아이콘을 클릭합니다.

    클러스터 구성

  2. 명령 팔레트에서 이전에 만든 클러스터의 이름을 선택합니다.

  3. 아직 시작되지 않은 경우 재생 아이콘(클러스터 시작)을 클릭합니다.

3단계: Python 코드 만들기 및 실행

  1. 로컬 Python 코드 파일을 만듭니다. 사이드바에서 폴더(탐색기) 아이콘을 클릭합니다.

  2. 주 메뉴에서 새 파일 파일을 >클릭합니다. 파일 이름을 demo.py 프로젝트의 루트에 저장합니다.

  3. 파일에 다음 코드를 추가한 다음 저장합니다. 이 코드는 기본 PySpark DataFrame의 내용을 만들고 표시합니다.

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. 편집기 탭 목록 옆에 있는 Databricks에서 실행 아이콘을 클릭한 다음 파일 업로드 및 실행을 클릭합니다. 출력이 디버그 콘솔 보기에 나타납니다.

    아이콘에서 파일 업로드 및 실행

    또는 탐색기 보기에서 파일을 마우스 오른쪽 단추로 클릭한 demo.py 다음 Databricks>업로드 및 실행에서 실행을 클릭합니다.

    상황에 맞는 메뉴에서 파일 업로드 및 실행

4단계: 작업으로 코드 실행

작업으로 실행 demo.py 하려면 편집기 탭 목록 옆에 있는 Databricks에서 실행 아이콘을 클릭한 다음 워크플로로 파일 실행을 클릭합니다. 출력은 파일 편집기 옆에 있는 별도의 편집기 탭에 demo.py 나타납니다.

아이콘에서 파일을 워크플로로 실행

또는 탐색기 패널에서 파일을 마우스 오른쪽 단추로 클릭한 demo.py 다음 Databricks>실행 파일에서 워크플로로 실행을 선택합니다.

상황에 맞는 메뉴에서 워크플로로 파일 실행

다음 단계

이제 Visual Studio Code용 Databricks 확장을 사용하여 로컬 Python 파일을 업로드하고 원격으로 실행했으므로 다음을 수행할 수도 있습니다.