Databricks Git 폴더 설정(Repos)

버전 제어를 위해 Databricks Git 폴더(이전의 Repos)를 설정하는 방법을 알아봅니다. Databricks에서 Git 폴더를 설정하면 Databricks UI에서 복제, 검사out, 커밋, 푸시, 끌어오기 및 분기 관리와 같은 일반적인 Git 작업을 수행할 수 있습니다. Databricks에서 Notebook 및 파일을 사용하여 개발할 때 변경 내용에 대한 차이도 볼 수 있습니다.

사용자 설정 구성

Databricks Git 폴더는 PAT(개인 액세스 토큰) 또는 동등한 자격 증명을 사용하여 Git 공급자를 인증하여 복제, 푸시, 끌어오기 등의 작업을 수행합니다. Git 폴더를 사용하려면 먼저 Git PAT 및 Git 공급자 사용자 이름을 Databricks에 추가해야 합니다. Git 자격 증명 구성을 참조 하고 원격 리포지토리를 Azure Databricks에 연결합니다.

Git 자격 증명(개인용 액세스 토큰 및 사용자 이름) 없이 공용 원격 리포지토리를 복제할 수 있습니다. 공용 원격 리포지토리 수정하거나 프라이빗 원격 리포지토리 복제하거나 수정하려면 원격 리포지토리 대한 쓰기(또는 그 이상) 권한이 있는 Git 공급자 사용자 이름 및 PAT가 있어야 합니다.

Git 폴더는 기본적으로 사용하도록 설정됩니다. Git 폴더 지원을 사용하거나 사용하지 않도록 설정하는 방법은 Databricks Git 폴더 기능 사용 또는 사용 안 함을 참조하세요.

Databricks에서 Git 자격 증명 추가 또는 편집

Important

Databricks Git 폴더는 작업 영역당 사용자당 하나의 Git 자격 증명만 지원합니다.

  1. 화면 오른쪽 위에 있는 계정 이름 옆에 있는 아래쪽 화살표를 선택한 다음 사용자 설정을 선택합니다.

  2. 연결된 계정 탭을 선택합니다.

  3. 자격 증명을 처음으로 추가하는 경우, 화면의 지침을 따릅니다.

    이전에 자격 증명을 입력한 경우 구성>편집을 클릭하고 다음 단계로 이동합니다.

  4. Git 공급자 드롭다운에서 공급자 이름을 선택합니다.

  5. Git 사용자 이름 또는 전자 메일을 입력합니다.

  6. 토큰 필드에 PAT(개인 액세스 토큰) 또는 Git 공급자의 기타 자격 증명을 추가합니다. 자세한 내용은 Git 자격 증명 구성 및 Azure Databricks에 원격 리포지토리 연결을 참조 하세요.

    Important

    Databricks에서는 모든 개인용 액세스 토큰에 대한 만료 날짜를 설정하는 것이 좋습니다.

    Azure DevOps의 경우 토큰 또는 앱 암호를 입력하지 않으면 Git 통합은 기본적으로 Microsoft Entra ID(이전의 Azure Active Directory) 토큰을 사용합니다. Azure DevOps 개인용 액세스 토큰을 입력하면 Git 통합에서 대신 이를 사용합니다. 토큰을 사용하여 Azure DevOps 리포지토리에 대한 커넥트 참조하세요.

    참고 항목

    Azure 암호를 업데이트한 후 즉시 작동하려면 새 인증이 필요한 경우 Azure Databricks로 다시 인증합니다. 다시 인증하지 않으면 최대 24시간 동안 Azure DevOps 연결의 유효성이 검사되지 않을 수 있습니다.

    조직에서 GitHub 에서 SAML SSO를 사용하도록 설정한 경우 SSO에 대한 개인 액세스 토큰에 권한을 부여합니다.

  7. Git 공급자 사용자 이름 필드에 사용자 이름을 입력합니다.

  8. 저장을 클릭합니다.

Databricks Repos API를 사용하여 Azure Databricks에 Git PAT 토큰 및 사용자 이름을 저장할 수도 있습니다.

리포지토리를 복제할 수 없고 Microsoft Entra ID 인증으로 Azure DevOps를 사용하는 경우 Microsoft Entra ID(이전의 Azure Active Directory)에 대한 CAP(조건부 액세스 정책) 문제를 참조하세요.

Databricks Git 폴더와 Git 공급자 간의 네트워크 연결

Git 폴더가 작동하려면 Git 공급자에 대한 네트워크 연결이 필요합니다. 일반적으로 이는 인터넷을 통해 작동하며 기본적으로 작동합니다. 그러나 액세스를 제어하기 위해 Git 공급자에 대한 추가 제한을 설정했을 수 있습니다. 예를 들어 IP 허용 목록이 있거나 GitHub Enterprise(GHE), BBS(Bitbucket Server) 또는 Gitlab 자체 관리 서비스와 같은 서비스를 사용하여 자체 온-프레미스 Git 서버를 호스트할 수 있습니다. 네트워크 호스팅 및 구성에 따라 인터넷을 통해 Git 서버에 액세스할 수 없을 수 있습니다.

참고 항목

Git 폴더의 보안 기능

Databricks Git 폴더에는 많은 보안 기능이 있습니다. 다음 섹션에서는 설치 및 사용을 안내합니다.

  • 암호화된 Git 자격 증명 사용
  • 허용 목록
  • 작업 영역 액세스 제어
  • 감사 로깅
  • 비밀 검색

Bring Your Own Key: Git 자격 증명 암호화

Azure Key Vault를 사용하여 Git PAT(개인용 액세스 토큰) 또는 기타 Git 자격 증명을 암호화할 수 있습니다. 암호화 서비스의 키를 사용하는 것을 CMK(고객 관리형 키) 또는 BYOK(Bring Your Own Key)라고 합니다.

자세한 내용은 암호화를 위한 고객 관리형 키를 참조하세요.

허용 목록의 URL로 사용 제한

Azure DevOps 인증에 Microsoft Entra ID를 사용하는 경우 기본 허용 목록은 Git URL을 다음으로 제한합니다.

  • dev.azure.com
  • visualstudio.com

사용자 지정 CNAMES 또는 Git URL 별칭이 있는 AAD의 경우 작업 영역 관리자는 다음 단계에 표시된 대로 사용자 지정 허용 목록을 구성할 수 있습니다. 사용자 지정 허용 목록을 사용하는 경우 작업 영역 관리자는 다음과 같이 작업하려는 경우 이러한 URL을 추가해야 합니다 dev.azure.comvisualstudio.com.

작업 영역 관리자는 사용자가 복제하고 커밋할 수 있는 원격 리포지토리를 제한할 수 있습니다. 이렇게 하면 코드 반출을 방지할 수 있습니다. 예를 들어 허용 목록 제한을 설정한 경우 사용자는 임의의 리포지토리에 코드를 푸시할 수 없습니다. 복제 작업을 허용된 리포지토리 목록으로 제한하여 사용자가 허가되지 않은 코드를 사용하지 못하도록 방지할 수도 있습니다.

허용 목록을 설정하려면 다음을 수행합니다.

  1. 관리 설정 페이지이동합니다.
  2. 작업 영역 관리자 탭을 클릭합니다(기본적으로 열려 있음).
  3. 개발 섹션에서 Git URL 허용 목록 권한에서 옵션을 선택합니다.
    • 사용 안 함(제한 없음): 허용 목록에 대한 검사가 없습니다.
    • 복제, 커밋 및 푸시를 허용된 Git 리포지토리로 제한: 복제, 커밋 및 푸시 작업은 허용 목록의 리포지토리 URL에 대해서만 허용됩니다.
    • 커밋 및 푸시를 허용된 Git 리포지토리로만 제한: 커밋 및 푸시 작업은 허용 목록의 리포지토리 URL에 대해서만 허용됩니다. 복제 및 끌어오기 작업은 제한되지 않습니다.

사용자 Git 액세스를 설정하는 데 사용되는 관리 설정 아래의 개발 창

  1. Git URL 허용 목록: 빈 목록의 편집 단추를 클릭하고 쉼표로 구분된 URL 접두사 목록을 입력합니다.

개발 관리자 설정의 허용 목록 편집 단추

  1. 저장을 클릭합니다.

참고 항목

  • 저장한 목록은 저장된 기존 URL 접두사 집합을 덮어씁니다.
  • 변경 사항이 적용되는 데 최대 15분이 걸릴 수 있습니다.

모든 리포지토리에 대한 액세스 허용

기존 허용 목록을 사용하지 않도록 설정하고 모든 리포지토리에 대한 액세스를 허용하려면 다음을 수행합니다.

  1. 관리 설정 페이지이동합니다.
  2. 작업 영역 관리자 탭을 클릭합니다.
  3. 개발 섹션의 Git URL 허용 목록 권한에서 사용 안 함(제한 없음)을 선택합니다.

작업 영역의 리포지토리에 대한 액세스 제어

참고 항목

액세스 제어는 프리미엄 플랜에서만 사용할 수 있습니다.

액세스를 제어하기 위해 리포지토리에 대한 사용 권한을 설정합니다. 리포지토리에 대한 권한은 해당 리포지토리의 모든 콘텐츠에 적용됩니다. 파일에 5개의 사용 권한 수준을 할당할 수 있습니다. 사용 권한 없음, 읽기 가능, 실행 가능, 편집 가능 및 관리 가능.

Git 폴더 권한에 대한 자세한 내용은 Git 폴더 ACL을 참조 하세요.

(선택 사항) 엔터프라이즈 Git 서버에 대한 프록시 설정

회사에서 GitHub Enterprise 또는 Azure DevOps Server와 같은 온-프레미스 엔터프라이즈 Git 서비스를 사용하는 경우 Databricks Git 서버 프록시를 사용하여 Databricks 작업 영역을 제공하는 리포지토리에 연결할 수 있습니다.

감사 로깅

감사 로깅을 사용하도록 설정하면 Git 폴더와 상호 작용할 때 감사 이벤트가 기록됩니다. 예를 들어 Git 폴더를 만들거나, 업데이트하거나, 삭제할 때, 작업 영역과 연결된 모든 Git 폴더를 나열하고, Git 폴더와 원격 Git 리포지토리 간에 변경 내용을 동기화할 때 감사 이벤트가 기록됩니다.

비밀 검색

Git 폴더는 코드에서 접두 AKIA 사로 시작하고 커밋하기 전에 사용자에게 경고하는 액세스 키 ID를 검색합니다.

리포지토리 구성 파일 사용

수동으로 만든 파일의 리포지토리에 각 Notebook에 .databricks/commit_outputs 대한 설정을 추가할 수 있습니다.

gitignore 패턴과 유사한 패턴을 사용하여 출력을 포함하려는 Notebook을 지정합니다.

리포지토리 구성 파일의 패턴

파일에는 양수 및 음수 파일 경로 패턴이 포함되어 있습니다. 파일 경로 패턴에는 전자 필기장 파일 확장자(예: .)가 .ipynb포함됩니다.

  • 양수 패턴을 사용하면 일치하는 Notebook에 출력을 포함할 수 있습니다.
  • 음수 패턴은 일치하는 Notebook에 대한 출력 포함을 사용하지 않도록 설정합니다.

패턴은 모든 Notebook에 대해 순서대로 평가됩니다. Notebook으로 확인되지 .ipynb 않는 잘못된 경로 또는 경로는 무시됩니다.

Notebook 경로folder/innerfolder/notebook.ipynb의 출력을 포함하려면 다음 패턴을 사용합니다.

**/*
folder/**
folder/innerfolder/note*

Notebook에 대한 출력을 제외하려면 양수 패턴이 일치하지 않는지 검사 구성 파일의 올바른 위치에 음수 패턴을 추가합니다. 음수(제외) 패턴은 다음으로 !시작합니다.

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Git 폴더를 휴지통으로 이동(삭제)

작업 영역에서 Git 폴더를 삭제하려면 다음을 수행합니다.

  1. Git 폴더를 마우스 오른쪽 단추로 클릭한 다음 휴지통으로 이동을 선택합니다 .

  2. 대화 상자에서 삭제할 Git 폴더의 이름을 입력합니다. 그런 다음 확인 및 휴지통으로 이동을 클릭합니다 .

    휴지통으로 이동 확인 대화 상자

다음 단계