Databricks Repos와 Git 통합

Databricks Repos와 Git 소스 제어를 통합하는 방법에 대해 알아봅니다. 데이터 과학 및 엔지니어링 코드 개발에 대한 모범 사례를 지원하기 위해 Databricks Repos Git 공급자와 리포지토리 수준 통합을 제공합니다. Azure Databricks Notebook에서 코드를 개발하고, 원격 Git 리포지토리와 동기화하고, 업데이트 및 소스 제어에 Git 명령을 사용할 수 있습니다.

참고

Databricks Repos 임의 파일에 대한 지원은 이제 퍼블릭 미리 보기로 제공됩니다. 자세한 내용은 UI에서 파일 작업Python 및 R 모듈 가져오기를 참조하세요.

Databricks Repos로 무엇을 할 수 있나요?

Databricks Repos는 Git 공급자와 통합하여 데이터 및 AI 프로젝트에 대한 소스 제어를 제공합니다.

Databricks Repos에서 Git 기능을 사용하여 다음을 수행할 수 있습니다.

  • 원격 Git 리포지토리에서 복제, 푸시 및 끌어옵니다.
  • 개발 작업을 위한 분기를 만들고 관리합니다.
  • Notebook을 만들고 Notebook 및 기타 파일을 편집합니다.
  • 커밋 시 차이점을 시각적으로 비교합니다.

단계별 지침은 Azure Databricks Repos에서 Notebook 및 프로젝트 파일 작업을 참조하세요.

다른 작업의 경우 Git 공급자에서 작업합니다.

  • 끌어오기 요청 만듭니다.
  • 병합 충돌을 해결합니다.
  • 분기를 병합하거나 삭제합니다.
  • 분기를 다시 지정합니다.

Databricks Repos에는 CI/CD 파이프라인과 통합할 수 있는 API도 있습니다. 예를 들어 Databricks 리포지토리를 프로그래밍 방식으로 업데이트하여 항상 최신 코드 버전을 사용하도록 할 수 있습니다.

Databricks Repos를 사용한 코드 개발 모범 사례에 대한 자세한 내용은 Databricks Repos와 Git 통합을 사용하는 CI/CD 워크플로를 참조하세요.

보안 및 감사 로깅

Databricks Repos는 Git 리포지토리에 대한 액세스를 제어하기 위한 허용 목록소스 코드에서 일반 텍스트 비밀 감지와 같은 보안 기능을 제공합니다.

감사 로깅이 활성화되면 Databricks 리포지토리와 상호작용할 때 감사 이벤트가 기록됩니다. 예를 들어 Databricks 리포지토리를 만들거나 업데이트하거나 삭제할 때, 작업 영역과 연결된 모든 Databricks 리포지토리를 나열할 때, Databricks 리포지토리와 원격 Git 리포지토리 간에 변경 내용을 동기화할 때 감사 이벤트가 기록됩니다.

지원되는 Git 공급자

Azure Databricks는 다음 Git 공급자를 지원합니다.

  • GitHub
  • Bitbucket Cloud
  • GitLab
  • Azure DevOps(Azure 중국 지역에서는 지원되지 않음)
  • AWS CodeCommit
  • GitHub AE

원격 리포지토리에 대한 Databricks Repos 액세스 설정을 참조하세요.

또한 Databricks Repos는 서버가 인터넷에 액세스할 수 있는 경우 Bitbucket Server, GitHub Enterprise Server 또는 GitLab 자체 관리형 구독 인스턴스 통합을 지원합니다.

인터넷에 액세스할 수 없는 프라이빗 Git 서버 인스턴스와 통합하려면 Databricks 담당자에게 문의하세요.

Databricks Repos 임의 파일은 Databricks Runtime 8.4 이상에서 지원됩니다.