다음을 통해 공유


Databricks 자산 번들은 무엇인가요?

Databricks 자산 번들은 데이터 및 AI 프로젝트에 대한 소스 제어, 코드 검토, 테스트 및 CI/CD(지속적인 통합 및 배달)를 비롯한 소프트웨어 엔지니어링 모범 사례를 쉽게 채택할 수 있는 도구입니다. 번들은 프로젝트의 원본 파일과 함께 메타데이터를 포함하고 작업 및 파이프라인과 같은 Databricks 리소스를 원본 파일로 설명할 수 있는 방법을 제공합니다. 궁극적으로 번들은 프로젝트를 전반적으로 정의하는 것으로, 프로젝트를 구조화하고 테스트하며 배포하는 방법을 포함합니다. 이렇게 하면 활성 개발 중에 프로젝트를 보다 쉽게 공동 작업할 수 있습니다.

번들 프로젝트의 원본 파일 및 메타데이터 컬렉션은 대상 환경에 단일 번들로 배포됩니다. 번들에는 다음과 같은 부분이 포함됩니다:

  • 필수 클라우드 인프라 및 작업 영역 구성
  • 비즈니스 논리를 포함하는 Notebook 및 Python 파일과 같은 원본 파일
  • Lakeflow 작업, Lakeflow 선언적 파이프라인, 엔드포인트를 제공하는 모델, MLflow 실험 및 MLflow 등록된 모델과 같은 Databricks 리소스에 대한 정의 및 설정
  • 단위 테스트 및 통합 테스트

다음 다이어그램은 번들을 사용한 개발 및 CI/CD 파이프라인에 대한 전반적인 개요를 제공합니다.

Databricks 자산 번들 개요

Databricks 자산 번들은 언제 사용해야 하나요?

Databricks 자산 번들은 Databricks 프로젝트를 관리하기 위한 코드형 인프라(Infrastructure-as-code, IaC) 접근 방식입니다. 여러 기여자 및 자동화가 필수적인 복잡한 프로젝트를 관리하려는 경우 이를 사용하며 CI/CD(연속 통합 및 배포)가 요구 사항입니다. 번들은 소스 코드와 함께 만들고 유지 관리하는 YAML 템플릿 및 파일을 통해 정의되고 관리되므로 IaC가 적절한 접근 방식인 시나리오에 잘 매핑됩니다.

번들에 대한 이상적인 시나리오에는 다음과 같은 것들이 있습니다.

  • 팀 기반 환경에서 데이터, 분석 및 ML 프로젝트를 개발합니다. 번들은 다양한 소스 파일을 효율적으로 구성하고 관리하는 데 도움이 될 수 있습니다. 이렇게 하면 원활한 협업과 프로세스 간소화가 보장됩니다.
  • ML 문제를 더 빠르게 처리합니다. 처음부터 프로덕션 모범 사례를 따르는 ML 프로젝트를 사용하여 ML 파이프라인 리소스(예: 학습 및 일괄 처리 유추 작업)를 관리합니다.
  • 기본 권한, 서비스 주체 및 CI/CD 구성을 포함하는 사용자 지정 번들 템플릿을 작성하여 새 프로젝트에 대한 조직 표준을 설정합니다.
  • 규정 준수: 규정 준수가 중요한 관심사인 산업에서 번들은 코드 및 인프라 작업의 버전 관리 기록을 유지하는 데 도움이 될 수 있습니다. 이를 통해 거버넌스를 지원하고 필요한 규정 준수 표준을 충족할 수 있습니다.

Databricks 자산 번들은 어떻게 작동합니까?

번들 메타데이터는 Databricks 프로젝트의 아티팩트, 리소스, 구성을 지정하는 YAML 파일을 사용하여 정의됩니다. 그런 다음 Databricks CLI를 사용하여 이러한 번들 YAML 파일로 번들의 유효성을 검사, 배포 및 실행할 수 있습니다. IDE, 터미널 또는 Databricks 내에서 직접 번들 프로젝트를 실행할 수 있습니다.

번들은 수동으로 만들거나 템플릿을 기반으로 만들 수 있습니다. Databricks CLI는 간단한 사용 사례에 대한 기본 템플릿을 제공하지만 더 구체적이거나 복잡한 작업의 경우 사용자 지정 번들 템플릿을 만들어 팀의 모범 사례를 구현하고 일반적인 구성을 일관되게 유지할 수 있습니다.

Databricks 자산 번들을 표현하는 데 사용되는 YAML 구성에 대한 자세한 내용은 Databricks 자산 번들 구성을 참조하세요.

요구 사항

Databricks 자산 번들은 Databricks CLI의 기능입니다. 번들을 로컬로 빌드한 다음 Databricks CLI를 사용하여 번들을 배포하여 원격 Databricks 작업 영역을 대상으로 하고 명령줄에서 해당 작업 영역에서 번들 워크플로를 실행합니다.

Azure Databricks 작업 영역에서 번들을 빌드, 배포 및 실행하려면 다음을 수행합니다.

  • 원격 Databricks 작업 영역에는 작업 영역 파일이 활성화되어 있어야 합니다. Databricks 런타임 버전 11.3 LTS 이상을 사용하는 경우 이 기능은 기본적으로 사용하도록 설정됩니다.

  • Databricks CLI 버전 v0.218.0 이상을 설치해야 합니다. Databricks CLI를 설치하거나 업데이트하려면 Databricks CLI 설치 또는 업데이트를 참조하세요.

    Databricks는 새 번들 기능을 활용하기 위해 최신 버전의 CLI로 정기적으로 업데이트하는 것이 좋습니다. 설치된 Databricks CLI의 버전을 확인하려면 다음 명령을 실행합니다.

    databricks --version
    
  • Databricks 작업 영역에 액세스하도록 Databricks CLI를 구성했습니다. Databricks는 작업 영역에 대한 액세스 구성에 설명된 OAuth U2M(사용자-컴퓨터) 인증을 사용하여 액세스를 구성하는 것이 좋습니다. 다른 인증 방법은 Databricks 자산 번들에 대한 인증에 설명되어 있습니다.

번들을 시작하려면 어떻게 해야 하나요?

번들 개발을 시작하는 가장 빠른 방법은 번들 프로젝트 템플릿을 사용하는 것입니다. Databricks CLI 번들 init 명령을 사용하여 첫 번째 번들 프로젝트를 만듭니다. 이 명령은 Databricks에서 제공하는 기본 번들 템플릿을 선택하고 프로젝트 변수를 초기화하기 위한 일련의 질문을 합니다.

databricks bundle init

번들을 만드는 것은 번들 수명 주기의 첫 단계입니다. 다음으로, 번들 설정 및 리소스 databricks.yml에서 리소스를 정의하여 번들을 개발합니다. 마지막으로 번들의 유효성을 검사 하고 배포 한 다음 워크플로를 실행합니다.

번들 구성 예제는 번들 구성 예제GitHub의 번들 예제 리포지토리에서 찾을 수 있습니다.

다음 단계