다음을 통해 공유


원본 제어 파이프라인 만들기

중요합니다

Lakeflow 파이프라인 편집기는 공개 미리 보기로 제공됩니다.

Azure Databricks에서 파이프라인 및 연결된 모든 코드를 소스 제어할 수 있습니다. 파이프라인과 연결된 모든 파일을 제어하는 소스에서 변환 코드, 탐색 코드 및 파이프라인 구성에 대한 변경 내용은 모두 Git에서 버전이 지정되며 개발 시 테스트되고 프로덕션 환경에 자신 있게 배포될 수 있습니다.

소스 제어 파이프라인은 다음과 같은 이점을 제공합니다.

  • 추적 가능성: Git 기록의 모든 변경 사항을 캡처합니다.
  • 테스트: 공유 프로덕션 작업 영역으로 승격하기 전에 개발 작업 영역에서 파이프라인 변경 내용의 유효성을 검사합니다. 모든 개발자는 Git 폴더의 자체 코드 분기 및 자체 스키마에 자체 개발 파이프라인을 가지고 있습니다.
  • 공동 작업: 개별 개발 및 테스트가 완료되면 코드 변경 내용이 주 프로덕션 파이프라인으로 푸시됩니다.
  • 거버넌스: 엔터프라이즈 CI/CD 및 배포 표준에 맞춥니다.

Azure Databricks를 사용하면 Databricks 자산 번들을 사용하여 파이프라인 및 해당 원본 파일을 함께 소스 제어할 수 있습니다. 번들을 사용하면 파이프라인 구성은 파이프라인의 Python 또는 SQL 원본 파일과 함께 YAML 구성 파일 형식으로 소스 제어됩니다. 하나의 번들에는 하나 이상의 파이프라인과 작업과 같은 다른 리소스 종류가 있을 수 있습니다.

이 페이지에서는 Databricks 자산 번들을 사용하여 소스 제어 파이프라인을 설정하는 방법을 보여 줍니다. 번들에 대한 더 많은 정보를 원하시면 Databricks 자산 번들이란?을 참조하세요.

요구 사항

원본 제어 파이프라인을 만들려면 다음이 이미 있어야 합니다.

번들에 새 파이프라인 생성하세요

비고

Databricks는 처음부터 소스 제어되는 파이프라인을 만드는 것이 좋습니다. 또는 이미 소스 제어되는 번들에 기존 파이프라인을 추가할 수 있습니다. 기존 리소스를 번들로 마이그레이션을 참조하세요.

새 소스 제어 파이프라인을 만들려면 다음을 수행합니다.

  1. 작업 영역에서 더하기 아이콘으로 이동합니다.새로운>파이프라인 아이콘입니다.ETL 파이프라인.

  2. 파일 큐브 아이콘 을 선택합니다.소스 제어 프로젝트로 설정:

    새 소스 제어 파이프라인

  3. 새 프로젝트 만들기를 클릭한 다음 코드 및 구성을 넣을 Git 폴더를 선택합니다.

    새 프로젝트

  4. 다음을 클릭합니다.

  5. 자산 번들 만들기 대화 상자에서 다음을 입력합니다.

    • 번들 이름: 번들의 이름입니다.
    • 초기 카탈로그: 사용할 스키마가 포함된 카탈로그의 이름입니다.
    • 개인 스키마 사용: 편집 내용을 개인 스키마로 격리하려면 이 상자를 선택된 상태로 둡니다. 따라서 조직의 사용자가 동일한 프로젝트에서 공동 작업할 때 개발에서 서로의 변경 내용을 덮어쓰지 않도록 합니다.
    • 초기 언어: 프로젝트의 샘플 파이프라인 파일(Python 또는 SQL)에 사용할 초기 언어입니다.

    새 번들

  6. 만들기 및 배포를 클릭합니다. Git 폴더에 pipeline을 포함한 번들이 생성됩니다.

파이프라인 묶음 살펴보기

다음으로, 생성된 파이프라인 번들을 탐색합니다.

Git 폴더에 있는 번들에는 변수, 대상 작업 영역 URL 및 권한 및 databricks.yml 번들에 대한 기타 설정을 정의하는 번들 시스템 파일과 파일이 포함됩니다. resources 번들의 폴더는 파이프라인과 같은 리소스에 대한 정의가 포함된 위치입니다.

Git 폴더의 번들

폴더를 resources 연 다음 파이프라인 편집기 단추를 클릭하여 원본 제어 파이프라인을 봅니다.

파이프라인 편집기 열기

파이프라인 트리가 있는 번들

샘플 파이프라인 번들에는 다음 파일이 포함됩니다.

  • 샘플 탐색 노트북

  • 테이블에서 변환을 수행하는 두 개의 샘플 코드 파일

  • 유틸리티 함수를 포함하는 샘플 코드 파일

  • 파이프라인을 실행하는 번들에서 작업을 정의하는 작업 구성 YAML 파일

  • 파이프라인을 정의하는 파이프라인 구성 YAML 파일

    중요합니다

    UI를 통해 변경된 내용을 포함하여 파이프라인에 대한 구성 변경 내용을 영구적으로 유지하려면 이 파일을 편집해야 합니다. 그렇지 않으면 번들이 다시 배포될 때 UI 변경 내용이 재정의됩니다. 예를 들어 파이프라인에 대해 다른 기본 카탈로그를 설정하려면 이 구성 파일의 catalog 필드를 편집합니다.

  • 샘플 파이프라인 번들 및 파이프라인 실행 방법에 대한 지침이 포함된 README 파일

파이프라인 파일에 대한 자세한 내용은 파이프라인 자산 브라우저를 참조하세요.

파이프라인 번들에 대한 변경 내용을 작성하고 배포하는 방법에 대한 자세한 내용은 작업 영역의 작성자 번들번들 배포 및 작업 영역에서 워크플로 실행을 참조하세요.

파이프라인 실행

개별 변환 또는 전체 원본 제어 파이프라인을 실행할 수 있습니다.

  • 파이프라인에서 단일 변환을 실행하고 미리 보려면 작업 영역 브라우저 트리에서 변환 파일을 선택하여 파일 편집기에서 엽니다. 편집기에서 파일 맨 위에서 파일 실행 재생 단추를 클릭합니다.
  • 파이프라인에서 모든 변환을 실행하려면 Databricks 작업 영역의 오른쪽 위에 있는 파이프라인 실행 단추를 클릭합니다.

파이프라인 실행에 대한 자세한 내용은 파이프라인 코드 실행을 참조하세요.

파이프라인 업데이트

파이프라인에서 아티팩트를 업데이트하거나 추가 탐색 및 변환을 추가할 수 있지만 이러한 변경 내용을 GitHub에 푸시하려고 합니다. 포크 아이콘 을 클릭합니다.파이프라인 번들과 연결된 Git 아이콘 또는 폴더에 대한 kebab를 클릭한 다음 Git...을 클릭하여 푸시할 변경 내용을 선택합니다. 원격 Git 리포지토리에 대한 변경 내용 커밋 및 푸시를 참조하세요.

Git에 변경 내용 푸시

또한 파이프라인 구성 파일을 업데이트하거나 번들에서 파일을 추가하거나 제거하는 경우 번들을 명시적으로 배포할 때까지 이러한 변경 내용이 대상 작업 영역으로 전파되지 않습니다. 작업 영역에서 번들 배포 및 워크플로 실행을 참조하세요.

비고

Databricks는 원본 제어 파이프라인에 대한 기본 설정을 유지하는 것이 좋습니다. UI를 통해 추가 파일이 추가되는 경우 파이프라인 번들 YAML 구성을 편집할 필요가 없도록 기본 설정이 구성됩니다.

업데이트 파이프라인

번들에 기존 파이프라인을 추가하세요.

번들에 기존 파이프라인을 추가하려면 먼저 작업 영역에서 번들을 만든 다음, 다음 페이지에 설명된 대로 파이프라인 YAML 정의를 번들에 추가합니다.

Databricks CLI를 사용하여 번들로 리소스를 마이그레이션하는 방법에 대한 자세한 내용은 기존 리소스를 번들로 마이그레이션을 참조하세요.

추가 리소스

파이프라인에 대한 추가 자습서 및 참조 자료는 Lakeflow Spark 선언적 파이프라인을 참조하세요.