작업을 사용하여 데이터 처리 및 분석 워크플로 구현

Azure Databricks 작업을 사용하여 Databricks 플랫폼에서 데이터 처리, 기계 학습 또는 데이터 분석 파이프라인을 오케스트레이션할 수 있습니다. Azure Databricks 작업은 Notebook, 스크립트, Delta Live Tables 파이프라인, Databricks SQL 쿼리 및 dbt 프로젝트를 비롯한 다양한 워크로드 유형을 지원합니다. 다음 문서에서는 Azure Databricks 작업의 기능 및 옵션을 사용하여 데이터 파이프라인을 구현하는 방법을 안내합니다.

Azure Databricks 작업을 사용하여 데이터 변환, 분석 및 시각화

작업을 사용하여 데이터를 수집, 변환, 분석 및 시각화하는 데이터 파이프라인을 만들 수 있습니다. Azure Databricks 작업에서 Databricks SQL 사용 예제는 다음과 같은 파이프라인을 빌드합니다.

  1. Python 스크립트를 사용하여 REST API를 사용하여 데이터를 가져옵니다.
  2. Delta Live Tables를 사용하여 가져온 데이터를 수집 및 변환하고 변환된 데이터를 Delta Lake에 저장합니다.
  3. Databricks SQL과 작업 통합을 사용하여 변환된 데이터를 분석하고 결과를 시각화하는 그래프를 만듭니다.

작업에서 dbt 변환 사용

dbt dbt 핵심 프로젝트로 데이터 변환을 수행하고 해당 프로젝트를 Azure Databricks 작업에 통합하려는 경우 또는 새 dbt 변환을 만들고 작업에서 해당 변환을 실행하려는 경우 작업 유형을 사용합니다. Azure Databricks 작업에서 dbt 변환 사용을 참조 하세요.

작업에서 Python 패키지 사용

Python 휠 파일은 Python 애플리케이션을 실행하는 데 필요한 파일을 패키지하고 배포하는 표준 방법입니다. 작업 유형이 있는 Python 휠 파일 Python wheel 로 패키지된 Python 코드를 사용하는 작업을 쉽게 만들 수 있습니다. Azure Databricks 작업에서 Python 휠 파일 사용을 참조 하세요.

JAR에 패키지된 코드 사용

Java 및 Scala와 같은 JVM 언어로 구현된 라이브러리 및 애플리케이션은 일반적으로 JAR(Java 보관) 파일에 패키지됩니다. Azure Databricks 작업은 작업 유형을 사용하여 JAR JAR 에 패키지된 코드를 지원합니다. Azure Databricks 작업에서 JAR 사용을 참조하세요.

중앙 리포지토리에 기본 Notebook 또는 Python 코드 사용

프로덕션 아티팩트에 대한 버전 제어 및 협업을 관리하는 일반적인 방법은 GitHub와 같은 중앙 리포지토리를 사용하는 것입니다. Azure Databricks 작업은 GitHub 또는 Databricks Git 폴더를 포함하여 리포지토리에서 가져온 Notebook 또는 Python 코드를 사용하여 작업을 만들고 실행할 수 있습니다. Azure Databricks 작업에서 버전 제어 소스 코드 사용을 참조 하세요.

Apache Airflow를 사용하여 작업 오케스트레이션

Databricks는 Azure Databricks 작업을 사용하여 워크플로를 오케스트레이션하는 것이 좋습니다. 그러나 Apache Airflow는 일반적으로 워크플로 오케스트레이션 시스템으로 사용되며 Azure Databricks 작업에 대한 기본 지원을 제공합니다. Azure Databricks 작업은 워크플로를 만드는 시각적 UI를 제공하지만 Airflow는 Python 파일을 사용하여 데이터 파이프라인을 정의하고 배포합니다. Airflow를 사용하여 작업을 만들고 실행하는 예제는 Apache Airflow를 사용하여 Azure Databricks 작업 오케스트레이션을 참조하세요.

서비스 주체를 사용하여 작업 실행

Microsoft Entra ID(이전의 Azure Active Directory) 애플리케이션 및 서비스 주체를 사용하여 작업을 서비스 계정으로 실행할 수 있습니다. 개별 사용자 대신 서비스 계정으로 작업을 실행하면 작업에 대한 액세스를 제어하고, 작업에 필요한 권한이 있는지 확인하고, 작업 소유자가 작업 영역에서 제거된 경우 문제를 방지할 수 있습니다. 서비스 주체를 만들고 사용하여 Azure Databricks 작업을 실행하는 방법에 대한 자습서는 Microsoft Entra ID 서비스 주체를 사용하여 작업 실행을 참조하세요.